Was machen dann die genannten Crawler genau? Kann man bestimmte Keywords angeben die er dann je nach Zusammenhang sucht?
Wie und wo gibt er diese dann aus?
Und machen dieses Crawler nicht unnötig Traffic - wenn jeder so ein Teil am laufen hätte?
also ein Nutch kann zum Glück nicht jeder einfach so aufsetzen.
Einem Crawler kannst du kein Keyword vorgeben - du kannst den Crawler lossenden, der schnappt sich sämtliche Urls die er finden kann, dann kannst du den Indizierungsvorgang starten. Damit baust die dir einen Index - diesen Index kannst du dann mit Lucene durchsuchen.
Für dich allerdings dürfte wohl eine Metasuchmaschine sinnvoller sein mit der du bereits vorhandene Suchmaschinen abfragst, neusortierst und evtl Ergebnisse clusterst.