Seite 1 von 1
Webcrawler selber erstellen
Verfasst: 13.02.2009, 12:42
von FranzderFranke
Gibt es eigentlich soetwas wie ein open source webcrawler? Der nach bestimmten Regeln das Internet durchforstet?
Solche Seiten wie
www.123people.de haben sicherlich auch so ein Teil am laufen, oder wie kommen die sonst an die Daten?
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 13.02.2009, 13:06
von seomedius
Es gibt eine PHP Klasse:
https://phpcrawl.cuab.de/
Verfasst: 13.02.2009, 13:40
von FranzderFranke
Das schaut doch schon mal gut aus.
Kennst du dich mit dem Crawler aus?
Wie gibt er die Daten aus?
Verfasst: 13.02.2009, 14:36
von bennos
wenn es was prof. sein soll. dann die üblichen Opensource Produkte
z.B. Nutch, Lucene und Co.
Verfasst: 13.02.2009, 14:47
von firestarter
verwende Nutch als Crawler und Lucene obendrauf als Volltextsuche.
Schau dir das aber nur an wenn dir Tomcat, Java etc geläufig sind - ansonsten pure Zeitverschwendung.
Verfasst: 13.02.2009, 15:56
von FranzderFranke
Was machen dann die genannten Crawler genau? Kann man bestimmte Keywords angeben die er dann je nach Zusammenhang sucht?
Wie und wo gibt er diese dann aus?
Und machen dieses Crawler nicht unnötig Traffic - wenn jeder so ein Teil am laufen hätte?
Verfasst: 13.02.2009, 16:04
von firestarter
Hallo,
also ein Nutch kann zum Glück nicht jeder einfach so aufsetzen.
Einem Crawler kannst du kein Keyword vorgeben - du kannst den Crawler lossenden, der schnappt sich sämtliche Urls die er finden kann, dann kannst du den Indizierungsvorgang starten. Damit baust die dir einen Index - diesen Index kannst du dann mit Lucene durchsuchen.
Für dich allerdings dürfte wohl eine Metasuchmaschine sinnvoller sein mit der du bereits vorhandene Suchmaschinen abfragst, neusortierst und evtl Ergebnisse clusterst.
Verfasst: 13.02.2009, 22:29
von bennos
nutch gibt es auch als vmware images.
kannst du auch auf einen server laufen lassen.