Hallo, ich suche einen webcrawler den ich parameterisieren kann, kann einfachster art sein, muss nur text extrahieren können, gibt es soetwas als freeware? Oder kann mir jemand mit guten seiten weiterhelfen?
Weis net so recht was du vor hast, aber vielleicht ist Snoopy für dich noch interessant, damit lassen sich leicht komplette Websites abfragen und ich glaube man kann dies auch nur auf den Text ohne HTML-Quellcode beschränken. (Bin mir da aber nicht so sicher). Wenn du noch selbst dran basteln willst wäre es vielleicht interessant für dich.
Hallo, wie sieht das eigentlich rechtlich aus. Möchte Inhalt einer fremden Seite mit dem bei mir eingestellten vergleichen. Dieses möchte ich automatisieren, eben mit einem crawler. Ist die Nutzung eines Crawlers gestattet, gibt es da irgendetwas zu beachten? Ich weiss google und co nutzen auch welche. Aber deswegen meine Frage, welche vielleicht auch keine ist.
Sollte. Wenn nicht - gibt es einschlägige Foren wie WMW in denen das schneller als man denkt gemeldet wird - und eine Menge Leute sehen Nichtbeachtung von robots.txt als Sperrgrund an. Den einmal gewonnenen schlechten Ruf wird man so schnell nicht mehr los.
Hatte da die seiten eines Auktionshauses im Auge. Mir reicht leider die dort integrierte Suche nach Produktnamen nicht aus. So muss ich unter anderem die Beschreibungen der Artikel in meine Recherche miteinbeziehen. Da ich aber nur nach bestimmten Phrasen suche, wollte ich mir das mit einem Bot erleichtern. Nun habe ich mir die dortige robots.txt mal angeschaut, und meinen Ambitionen wurde ein Strich durch die Rechnung gemacht. Gibt es irgendwie alternativen, die man nutzen könnte?