Fragwürdige Bots - Wer kann helfen?

Beitrag von **psycho** » 05.07.2006, 14:59

Wo hier schon mal ein Thread zu fragwürdigen Bots ist, wer hat Erfahrungen mit folgender Sammlung aus meinen Logs:

195.113.214.199||Jyxobot/1
67.8.209.191||EmeraldShield.com Web Spider (https://www.emeraldshield.com/webbot.aspx
65.60.93.50||Java/1.4.1_04
84.177.131.104||Java/1.4.1_04
84.177.154.197||Java/1.4.1_04
84.177.154.197||Java/1.5.0_06
86.126.67.158||Java/1.4.1_04
194.176.43.121||Java/1.4.1_04
24.177.134.6||aipbot/1.0 (aipbot; https://www.aipbot.com; aipbot@aipbot.com)
84.56.74.61||NG-Search/0.90 (NG-SearchBot; https://www.ng-search.com/; )
72.5.115.40||Mozilla/5.0 (Windows;) NimbleCrawler 2.0.1 obeys UserAgent NimbleCrawler For problems contact: crawler@healthline.com
66.234.139.217||Snapbot/1.0
85.225.233.84||MJ12bot/v1.0.7 (https://majestic12.co.uk/bot.php? )
87.236.198.19||MJ12bot/v1.0.7 (https://majestic12.co.uk/bot.php? )
217.210.246.102||MJ12bot/v1.0.7 (https://majestic12.co.uk/bot.php? )
64.140.49.66||TurnitinBot/2.0 https://www.turnitin.com/robot/crawlerinfo.html
204.9.204.202||TurnitinBot/2.0 https://www.turnitin.com/robot/crawlerinfo.html
204.9.204.203||TurnitinBot/2.0 https://www.turnitin.com/robot/crawlerinfo.html
157.82.157.92||Steeler/3.1 (https://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
212.89.128.89||iCCrawler (https://www.iccenter.net/bot.htm)
212.227.93.221||iCCrawler (https://www.iccenter.net/bot.htm)
212.112.229.155||thumbshots-de-Bot (Version: 1.02, powered by www.thumbshots.de)
85.10.199.16||Francis/2.0 (francis@neomo.de https://www.neomo.de/)
66.234.139.*||Snapbot/1.0 - unzählige IPs aus dem Class-C-Netz
80.237.212.135||cometrics-bot, https://www.cometrics.de

Selbst wenn manches nach einem Versuch aussieht, eine echte Suchmaschine aufzubauen - keine Ahnung, ob die wirklich vertrauenswürdig sind ... tja und dann ist da noch der Teil, den ich überhaupt nicht zuordnen kann (z.:b die Java-Bots) Daher sind Tipps erbeten

von **Anzeige von ABAKUS** »

Beitrag von **Kristian** » 05.07.2006, 15:34

Hallo

Wenn du 212.112.229.155||thumbshots-de-Bot sperrst wird es für deine Seiten kein Vorschaubildchen geben.
Ist aber nicht wirklich tragisch, ausser dass dich die Webverzeichnisse die die Bilder nutzen rauswerfen.

EmeraldShield.com Web Spider ist interessant, der crawlt neue com.domains sobald sie angemeldet werden, hängt wohl an whois.

Die JavaBots sperre ich generell alle, gleiches gilt für den Rest den du da aufzählst, ausser thumbshots.de

Gruss Kristian

Beitrag von **psycho** » 05.07.2006, 17:07

Bleibt noch die Frage, wie man die unerwünschten Bots ausperrt, wenn man kein htaccess zur Verfügung hat? Ich fürchte irgendwie, dass man das alles direkt im php-Script rausfiltern müßte, weil die robots.txt ja ignoriert werden könnte oder?

Beitrag von **Kristian** » 05.07.2006, 17:33

Hallo

> weil die robots.txt ja ignoriert werden könnte

Böse Bots beachten die robots.txt generell nicht.

Gruss Kristian

Beitrag von **thetrasher** » 05.07.2006, 18:16

psycho hat geschrieben:Daher sind Tipps erbeten

Zur Suche hilfreich ist folgende Seite: https://www.abakus-internet-marketing.d ... earch.html
Du gibst den Botnamen (beispielsweise "Snapbot") ein und bekommst passende Foreneinträge serviert. Die Suche sollte auf das Forum "Spiders / Robots Themen" beschränkt werden.

Für den Anfang lesenswert ist auch die Einführung für Neulinge.

psycho hat geschrieben:Bleibt noch die Frage, wie man die unerwünschten Bots ausperrt, wenn man kein htaccess zur Verfügung hat?

Wenn dir "nur" PHP zur Verfügung steht, kannst du die unerwünschten Bots mit PHP aussortieren. Einen guten Ansatz verfolgt das PHP-Projekt https://www.bot-trap.de/.

psycho hat geschrieben:Selbst wenn manches nach einem Versuch aussieht, eine echte Suchmaschine aufzubauen (...)

Immer mehr Spammer geben vor, eine eigene Suchmaschine aufzubauen oder zu betreiben. Eine gewisse Art Suchmaschine betreiben sie, doch suchen sie nur E-Mailadressen und werden diese bestimmt nicht kostenlos über eine Suchmaske der Öffentlichkeit präsentieren. Wie umfangreich kann eine Suchmaschine sein, die auf einem günstig angemieteten Einzelserver mit einer 160 GB oder gar nur 80 GB großen Festplatte läuft?

Zwar sollten Internetseiten der Öffentlichkeit zugänglich sein, aber letztlich bleibt es dir überlassen, ob du fragwürdigen Erscheinungen Zutritt zu deiner Wohnung bzw. deiner Website gewährst.

EDIT: Dank@tbone78 für die Verschiebung der fragwürdigen Bots in einen eigenen Thread.

Beitrag von **icjobs** » 11.07.2006, 07:34

Hallo Psycho,
die Bedenken und die Skepsis sind teilweise tatsächlich berechtigt, insbesondere dann wenn niemand so recht weiss wozu dieser Bot/Crawler geeignet ist und wer tatsächlich dahinter steckt.
Zudem gibt es zahlreiche dieser Bots, welche das "Gentlemen's Agreement" der robots.txt - Datei missachten. Möchte man trotzdem nicht gecrawlt werden, hilft in solchen Fällen nur der radikale Ausschluss über .htaccess (wenn dieser immer über die gleiche IP kommt).

Wir selbst stecken hinter dem iCCrawler: https://www.iccenter.net/bot.htm.
Unser Crawler hat derzeit "nur" eine Aufgabe: Er füllt die Datenbank von www.icjobs.de (mehr möchte ich aus Schleichwerbungsverdacht dazu nicht erwähnen.

Doch - vielleicht ein wichtiger Punkt: Im Gegensatz zu äusserst hungringen Crawlern a la googlebot or slurp suchen wir sehr gezielt nach entsprechenden Jobs und vermeiden das "Saugen" der kompletten Site. - Pardon, aber dies war mir wichtig, da Bedenken bzgl. des Traffic immer wieder auftauchen). Wir halten uns ausdrücklich an robots.txt - Eintragungen die Wünsche der Sitebetreiber.

Einen Überblick über aktive Bots/Crawler -weltweit- kann man sich z.B. hier verschaffen:
https://www.psychedelix.com/agents/index.shtml

Ich hoffe ich konnte ein wenig helfen.

Mit besten Grüssen
ICjobs-Team

Beitrag von **Kristian** » 11.07.2006, 08:19

Hallo

@icjobs
Wenn du noch dazugeschrieben hättest:
Uns sperrt man mit: User-agent: ?????
Wir benutzen die IP's ??.???.??.??? ....
unser Robot beachtet MetaTags ja / nein / welche
hätte ich den Beitrag richtig toll gefunden.

Gruss Kristian

Beitrag von **icjobs** » 11.07.2006, 09:05

Hallo Kristian,
dann schieben ich doch nochmals einige Informationen nach. Die meisten Angaben bzgl. User Agent (iCCrawler) sind in der erwähnten
https://www.iccenter.net/bot.htm zu finden.

Da sich die IP's ständig ändern und/oder erweitern, kann eine Aufzählung hier nie vollständig sein. ICCrawler läuft jedoch seit über einem Jahr unter dem selben Namen.

Metatags - wir folgen ausschliesslich: META HTTP-EQUIV=Refresh...

Beste Grüsse

ICjobs-Team

Beitrag von **thetrasher** » 11.07.2006, 10:45

icjobs hat geschrieben:Unser Crawler hat derzeit "nur" eine Aufgabe: Er füllt die Datenbank von www.icjobs.de

https://www.iccenter.net/bot.htm hat geschrieben:It collects documents from the web to build a searchable index for the ICCenter search engine.

Das "Intelligence Competence Center" beschäftigt sich mit Konkurrenz- und Wettbewerbsbeobachtung. Der ICCrawler arbeitet für das ICCenter und dessen Kunden.

https://www.iccenter.net/ hat geschrieben:Am 14.02.2006 wurde unser neues Produkt www.icjobs.de gestartet

icjobs hat geschrieben:ICCrawler läuft jedoch seit über einem Jahr unter dem selben Namen.

Ihr sammelt Jobangebote auf Vorrat und veröffentlicht sie dann ein halbes Jahr später?
Wie nannte sich der Crawler vorher?

https://www.iccenter.net/bot.htm hat geschrieben:Currently we're collecting ONLY job offers from company sites.

Wann habt ihr denn diesen Beruhigungssatz eingefügt, der stand doch früher noch nicht drin? Ein Bot der nur für die "größte Jobsuchmaschine Deutschlands" (solche Superlative sind grundsätzlich fragwürdig) arbeitet, müsste die Kennung "iCjobs (https://www.icjobs.de/bot.htm)" tragen.

icjobs hat geschrieben:Da sich die IP's ständig ändern und/oder erweitern, kann eine Aufzählung hier nie vollständig sein.

Sind die alten IPs erst gesperrt und somit verbrannt, müssen neue her.

Beitrag von **icjobs** » 11.07.2006, 11:27

Wow, pikante Fragen.

Unter welchem Aspekt diese Fragen gestellt werden kann ich zwar noch nicht so ganz nachvollziehen, werde aber jede Frage explizit beantworten um hier, wenn sich schon einmal ein Suchmaschinenbetreiber in einem Forum meldet keine Missverständnisse aufkommen zu lassen:

a) Die Intelligence Competence Center AG beschäftigt sich mit Konkurrenz und Wettbewerbsbeobachtung. Das ist richtig. Wie bereits erwähnt ziehen unsere ICCrawler ausschliesslich auf Stellenangebote ab und sind NICHT im Kundenauftrag unterwegs. Um verwertbares Material zur Wettbewerbsanalyse zu ergattern benötigt man neben Stellenanzeigen sicher noch mehr Datenmaterial und hier fängt dann das "Saugen" an, welches wir definitv NICHT betrieben.
Unsere Kunden haben sehr spezielle Wünsche die mit einem Massen-Crawling (4.2 Mio. Domains) sicher nicht zu befriedigen sind.
Ich möchte nicht wissen wieviele verwertungstechnisch hochbrisante Daten bei *oogle & co. vorliegen.
Sollten wir nicht zügig auf den Websites Jobangebote finden, dies ist durch link-technische aber auch byte-technische Limits begrenzt, so springen wir unmittelbar zur nächsten Seite über. Auch dies ist ein Beleg dafür, dass wir keineswegs "saugen".

b) Wir sammeln Jobangebote und veröffentlichen alle während des Crawl-Zyklus gefundenen Stellen am gleichen Tag.

c) Der ICCrawler nannte sich schon immer ICCrawler und läuft seit fast einem Jahr unter diesem Namen. Vorgänger gibt es keine.

d) Beruhigungssatz: Dieser Satz wurde ca. 6 Wochen nach dem ersten Start eingefügt. Somit vor fast 11 Monaten.

e) "größte Jobsuchmaschine": Wir behaupten dies absichtlich, da uns KEINE Suchmaschine bekannt ist, die derart viele Stellen aus Unternehmensseiten liest und KEIN Meta-Crawling (Crawlen von monster.com, jopilot.de, etc.) betreibt.

f) Bislang wurden keine IP's gesperrt, da wir uns an Fairplay-Regeln halten. Möchte jemand NICHT gecrawlt werden so kann er dies durch einfachen Ausschluss des ICCrawlers in der robots.txt tun. Der erste Besuch eines Crawlers gilt immer der Suche nach der robots.txt. Gibt es Auschlüsse, so unterbrechen wir sofort den Crawl-Vorgang.

Beste Grüsse

Beitrag von **thetrasher** » 11.07.2006, 13:39

icjobs hat geschrieben:KEIN Meta-Crawling (Crawlen von monster.com, jopilot.de, etc.)

:arrow:[url]https://www.icjobs.de/faq.php[/url] hat geschrieben:Unser ICCrawler versucht Jobbörsen zu meiden.

https://www.icjobs.de/jobdetail.php?rid=6408873

:arrow:[url]https://www.icjobs.de/cache.php?rid=6408873[/url] hat geschrieben:Die Daten basieren auf Angaben der Arbeitgeber. Eine gewerbliche Nutzung ist nur mit schriftlicher Zustimmung der BA gestattet.

Ihr fragt die Datenspender nicht, ob ihr deren Internetseiten cachen dürft, oder? Ihr macht es (euch) einfach.

icjobs hat geschrieben:(...) unsere ICCrawler (...) sind NICHT im Kundenauftrag unterwegs.

:arrow:[url]https://www.iccenter.net/index.php?lang=de&location=technologie[/url] hat geschrieben:Die ICCrawler verschaffen den Kunden des Intelligence Competence Center einen einzigartigen Vorteil:
Informationen automatisch in Echtzeit im Internet selektiv zu finden und aufzubereiten.
(...)
Auf Wunsch bieten wir Ihnen darüber hinaus ein Frühwarnsystem für Weblogs und Newsgroups an.

Der Stellenmarkt ist, wie ihr selbst schreibt, nur ein Einsatzgebiet eurer Suchtechnologie.

Was ihr für Ziele mit dem Crawler auch verfolgt, eines steht fest:

Wer keine Jobangebote auf seiner Website hat oder seine Stellenangebote nicht auf eurer Seite (im Cache) veröffentlicht sehen will, kann den ICCrawler bedenkenlos aussperren.

Bisher kam der iCCrawler über folgende IPs:
212.227.76.83 (Schlund-Server)
212.227.93.221 (Schlund-Server)
212.89.128.89 (InfoServe GmbH)
82.165.39.218 (Schlund-Server)

Der Bot hält sich derzeit an die robots.txt.

Beitrag von **icjobs** » 11.07.2006, 14:02

Vielen Dank für den Hinweis bzgl. rekruter.de.

"Die Daten basieren auf Angaben der Arbeitgeber. Eine gewerbliche Nutzung ist nur mit schriftlicher Zustimmung der BA gestattet."

Genau DAS wollen wir vermeiden, kann jedoch bei mittlerweile ca. 1800 erkannten und "abgeschalteten" Börsen vorkommen.

Wir haben diese Börse umgehend aus dem Index entfernt. In ca. 6h werden diese Angebote von rekruter.de nicht mehr verfügbar sein.

Beitrag von **thetrasher** » 20.07.2006, 18:21

Die Kennung des ICjobs-/ICCenter-Bots hat sich geändert.

IP: 212.227.93.221

UA früher: "iCCrawler (https://www.iccenter.net/bot.htm)"

UA jetzt: "ICCrawler - ICjobs (https://www.icjobs.de/bot.htm)"

Beitrag von **icjobs** » 20.07.2006, 18:48

Das ist korrekt! Seit vorgestern laufen auf ALLEN IP's diese neuen user agents.

Grund waren die sinnvollen Anregungen hier im Forum. Jetzt sagt bereits der Name des user agent aus, wozu der Crawler genutzt wird.

IC - I see...

Merci dafür.