Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Webcrawler selber erstellen

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
FranzderFranke
PostRank 6
PostRank 6
Beiträge: 488
Registriert: 29.04.2008, 17:11

Beitrag von FranzderFranke » 13.02.2009, 12:42

Gibt es eigentlich soetwas wie ein open source webcrawler? Der nach bestimmten Regeln das Internet durchforstet?

Solche Seiten wie www.123people.de haben sicherlich auch so ein Teil am laufen, oder wie kommen die sonst an die Daten?

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


seomedius
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 26.08.2008, 15:58

Beitrag von seomedius » 13.02.2009, 13:06

Es gibt eine PHP Klasse: https://phpcrawl.cuab.de/

FranzderFranke
PostRank 6
PostRank 6
Beiträge: 488
Registriert: 29.04.2008, 17:11

Beitrag von FranzderFranke » 13.02.2009, 13:40

Das schaut doch schon mal gut aus.

Kennst du dich mit dem Crawler aus?

Wie gibt er die Daten aus?

bennos
PostRank 9
PostRank 9
Beiträge: 1299
Registriert: 16.12.2005, 11:51

Beitrag von bennos » 13.02.2009, 14:36

wenn es was prof. sein soll. dann die üblichen Opensource Produkte

z.B. Nutch, Lucene und Co.

firestarter
PostRank 8
PostRank 8
Beiträge: 954
Registriert: 26.05.2003, 13:52
Wohnort: Cairns

Beitrag von firestarter » 13.02.2009, 14:47

verwende Nutch als Crawler und Lucene obendrauf als Volltextsuche.

Schau dir das aber nur an wenn dir Tomcat, Java etc geläufig sind - ansonsten pure Zeitverschwendung.

FranzderFranke
PostRank 6
PostRank 6
Beiträge: 488
Registriert: 29.04.2008, 17:11

Beitrag von FranzderFranke » 13.02.2009, 15:56

Was machen dann die genannten Crawler genau? Kann man bestimmte Keywords angeben die er dann je nach Zusammenhang sucht?
Wie und wo gibt er diese dann aus?
Und machen dieses Crawler nicht unnötig Traffic - wenn jeder so ein Teil am laufen hätte?

firestarter
PostRank 8
PostRank 8
Beiträge: 954
Registriert: 26.05.2003, 13:52
Wohnort: Cairns

Beitrag von firestarter » 13.02.2009, 16:04

Hallo,

also ein Nutch kann zum Glück nicht jeder einfach so aufsetzen.

Einem Crawler kannst du kein Keyword vorgeben - du kannst den Crawler lossenden, der schnappt sich sämtliche Urls die er finden kann, dann kannst du den Indizierungsvorgang starten. Damit baust die dir einen Index - diesen Index kannst du dann mit Lucene durchsuchen.

Für dich allerdings dürfte wohl eine Metasuchmaschine sinnvoller sein mit der du bereits vorhandene Suchmaschinen abfragst, neusortierst und evtl Ergebnisse clusterst.

bennos
PostRank 9
PostRank 9
Beiträge: 1299
Registriert: 16.12.2005, 11:51

Beitrag von bennos » 13.02.2009, 22:29

nutch gibt es auch als vmware images.

kannst du auch auf einen server laufen lassen.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag