Seite 1 von 1
Web Crawler
Verfasst: 24.12.2004, 11:39
von student2000
Hallo, ich suche einen webcrawler den ich parameterisieren kann, kann einfachster art sein, muss nur text extrahieren können, gibt es soetwas als freeware? Oder kann mir jemand mit guten seiten weiterhelfen?
frohes fest euch allen!!!
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 24.12.2004, 13:57
von manute
Verfasst: 24.12.2004, 14:50
von Jojo
Weis net so recht was du vor hast, aber vielleicht ist Snoopy für dich noch interessant, damit lassen sich leicht komplette Websites abfragen und ich glaube man kann dies auch nur auf den Text ohne HTML-Quellcode beschränken. (Bin mir da aber nicht so sicher). Wenn du noch selbst dran basteln willst wäre es vielleicht interessant für dich.
https://snoopy.sourceforge.com
Rechtliches zum Crawler
Verfasst: 25.12.2004, 02:49
von student2000
Hallo, wie sieht das eigentlich rechtlich aus. Möchte Inhalt einer fremden Seite mit dem bei mir eingestellten vergleichen. Dieses möchte ich automatisieren, eben mit einem crawler. Ist die Nutzung eines Crawlers gestattet, gibt es da irgendetwas zu beachten? Ich weiss google und co nutzen auch welche. Aber deswegen meine Frage, welche vielleicht auch keine ist.
Danke für die Antworten.

Verfasst: 25.12.2004, 17:31
von bull
robots.txt
Verfasst: 25.12.2004, 17:35
von Jojo
@bull
Muss ein Crawler eine robots.txt beachten oder sollte er?
Verfasst: 25.12.2004, 17:53
von bull
Sollte. Wenn nicht - gibt es einschlägige Foren wie WMW in denen das schneller als man denkt gemeldet wird - und eine Menge Leute sehen Nichtbeachtung von robots.txt als Sperrgrund an. Den einmal gewonnenen schlechten Ruf wird man so schnell nicht mehr los.
Andere ideen?
Verfasst: 27.12.2004, 22:04
von student2000
Hatte da die seiten eines Auktionshauses im Auge. Mir reicht leider die dort integrierte Suche nach Produktnamen nicht aus. So muss ich unter anderem die Beschreibungen der Artikel in meine Recherche miteinbeziehen. Da ich aber nur nach bestimmten Phrasen suche, wollte ich mir das mit einem Bot erleichtern. Nun habe ich mir die dortige robots.txt mal angeschaut, und meinen Ambitionen wurde ein Strich durch die Rechnung gemacht. Gibt es irgendwie alternativen, die man nutzen könnte?
mfg thomas