Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Fragwürdige Bots - Wer kann helfen?

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
psycho
PostRank 2
PostRank 2
Beiträge: 49
Registriert: 04.07.2006, 21:05

Beitrag von psycho » 05.07.2006, 14:59

Wo hier schon mal ein Thread zu fragwürdigen Bots ist, wer hat Erfahrungen mit folgender Sammlung aus meinen Logs:

195.113.214.199||Jyxobot/1
67.8.209.191||EmeraldShield.com Web Spider (https://www.emeraldshield.com/webbot.aspx
65.60.93.50||Java/1.4.1_04
84.177.131.104||Java/1.4.1_04
84.177.154.197||Java/1.4.1_04
84.177.154.197||Java/1.5.0_06
86.126.67.158||Java/1.4.1_04
194.176.43.121||Java/1.4.1_04
24.177.134.6||aipbot/1.0 (aipbot; https://www.aipbot.com; aipbot@aipbot.com)
84.56.74.61||NG-Search/0.90 (NG-SearchBot; https://www.ng-search.com/; )
72.5.115.40||Mozilla/5.0 (Windows;) NimbleCrawler 2.0.1 obeys UserAgent NimbleCrawler For problems contact: crawler@healthline.com
66.234.139.217||Snapbot/1.0
85.225.233.84||MJ12bot/v1.0.7 (https://majestic12.co.uk/bot.php? )
87.236.198.19||MJ12bot/v1.0.7 (https://majestic12.co.uk/bot.php? )
217.210.246.102||MJ12bot/v1.0.7 (https://majestic12.co.uk/bot.php? )
64.140.49.66||TurnitinBot/2.0 https://www.turnitin.com/robot/crawlerinfo.html
204.9.204.202||TurnitinBot/2.0 https://www.turnitin.com/robot/crawlerinfo.html
204.9.204.203||TurnitinBot/2.0 https://www.turnitin.com/robot/crawlerinfo.html
157.82.157.92||Steeler/3.1 (https://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
212.89.128.89||iCCrawler (https://www.iccenter.net/bot.htm)
212.227.93.221||iCCrawler (https://www.iccenter.net/bot.htm)
212.112.229.155||thumbshots-de-Bot (Version: 1.02, powered by www.thumbshots.de)
85.10.199.16||Francis/2.0 (francis@neomo.de https://www.neomo.de/)
66.234.139.*||Snapbot/1.0 - unzählige IPs aus dem Class-C-Netz
80.237.212.135||cometrics-bot, https://www.cometrics.de

Selbst wenn manches nach einem Versuch aussieht, eine echte Suchmaschine aufzubauen - keine Ahnung, ob die wirklich vertrauenswürdig sind ... tja und dann ist da noch der Teil, den ich überhaupt nicht zuordnen kann (z.:b die Java-Bots) Daher sind Tipps erbeten ;)
Zuletzt geändert von psycho am 05.07.2006, 17:07, insgesamt 1-mal geändert.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 05.07.2006, 15:34

Hallo

Wenn du 212.112.229.155||thumbshots-de-Bot sperrst wird es für deine Seiten kein Vorschaubildchen geben.
Ist aber nicht wirklich tragisch, ausser dass dich die Webverzeichnisse die die Bilder nutzen rauswerfen.

EmeraldShield.com Web Spider ist interessant, der crawlt neue com.domains sobald sie angemeldet werden, hängt wohl an whois.

Die JavaBots sperre ich generell alle, gleiches gilt für den Rest den du da aufzählst, ausser thumbshots.de

Gruss Kristian
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

psycho
PostRank 2
PostRank 2
Beiträge: 49
Registriert: 04.07.2006, 21:05

Beitrag von psycho » 05.07.2006, 17:07

Bleibt noch die Frage, wie man die unerwünschten Bots ausperrt, wenn man kein htaccess zur Verfügung hat? Ich fürchte irgendwie, dass man das alles direkt im php-Script rausfiltern müßte, weil die robots.txt ja ignoriert werden könnte oder? :roll:

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 05.07.2006, 17:33

Hallo

> weil die robots.txt ja ignoriert werden könnte

Böse Bots beachten die robots.txt generell nicht.

Gruss Kristian
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

thetrasher
PostRank 5
PostRank 5
Beiträge: 238
Registriert: 31.12.2005, 10:50
Wohnort: Bad Tölz

Beitrag von thetrasher » 05.07.2006, 18:16

psycho hat geschrieben:Daher sind Tipps erbeten
Zur Suche hilfreich ist folgende Seite: https://www.abakus-internet-marketing.d ... earch.html
Du gibst den Botnamen (beispielsweise "Snapbot") ein und bekommst passende Foreneinträge serviert. Die Suche sollte auf das Forum "Spiders / Robots Themen" beschränkt werden.

Für den Anfang lesenswert ist auch die Einführung für Neulinge.
psycho hat geschrieben:Bleibt noch die Frage, wie man die unerwünschten Bots ausperrt, wenn man kein htaccess zur Verfügung hat?
Wenn dir "nur" PHP zur Verfügung steht, kannst du die unerwünschten Bots mit PHP aussortieren. Einen guten Ansatz verfolgt das PHP-Projekt https://www.bot-trap.de/.
psycho hat geschrieben:Selbst wenn manches nach einem Versuch aussieht, eine echte Suchmaschine aufzubauen (...)
Immer mehr Spammer geben vor, eine eigene Suchmaschine aufzubauen oder zu betreiben. Eine gewisse Art Suchmaschine betreiben sie, doch suchen sie nur E-Mailadressen und werden diese bestimmt nicht kostenlos über eine Suchmaske der Öffentlichkeit präsentieren. Wie umfangreich kann eine Suchmaschine sein, die auf einem günstig angemieteten Einzelserver mit einer 160 GB oder gar nur 80 GB großen Festplatte läuft?

Zwar sollten Internetseiten der Öffentlichkeit zugänglich sein, aber letztlich bleibt es dir überlassen, ob du fragwürdigen Erscheinungen Zutritt zu deiner Wohnung bzw. deiner Website gewährst.

EDIT: Dank@tbone78 für die Verschiebung der fragwürdigen Bots in einen eigenen Thread.

icjobs
PostRank 1
PostRank 1
Beiträge: 5
Registriert: 11.07.2006, 07:06

Beitrag von icjobs » 11.07.2006, 07:34

Hallo Psycho,
die Bedenken und die Skepsis sind teilweise tatsächlich berechtigt, insbesondere dann wenn niemand so recht weiss wozu dieser Bot/Crawler geeignet ist und wer tatsächlich dahinter steckt.
Zudem gibt es zahlreiche dieser Bots, welche das "Gentlemen's Agreement" der robots.txt - Datei missachten. Möchte man trotzdem nicht gecrawlt werden, hilft in solchen Fällen nur der radikale Ausschluss über .htaccess (wenn dieser immer über die gleiche IP kommt).

Wir selbst stecken hinter dem iCCrawler: https://www.iccenter.net/bot.htm.
Unser Crawler hat derzeit "nur" eine Aufgabe: Er füllt die Datenbank von www.icjobs.de (mehr möchte ich aus Schleichwerbungsverdacht dazu nicht erwähnen. :lol: Doch - vielleicht ein wichtiger Punkt: Im Gegensatz zu äusserst hungringen Crawlern a la googlebot or slurp suchen wir sehr gezielt nach entsprechenden Jobs und vermeiden das "Saugen" der kompletten Site. - Pardon, aber dies war mir wichtig, da Bedenken bzgl. des Traffic immer wieder auftauchen). Wir halten uns ausdrücklich an robots.txt - Eintragungen die Wünsche der Sitebetreiber.

Einen Überblick über aktive Bots/Crawler -weltweit- kann man sich z.B. hier verschaffen:
https://www.psychedelix.com/agents/index.shtml

Ich hoffe ich konnte ein wenig helfen.

Mit besten Grüssen
ICjobs-Team
Zuletzt geändert von icjobs am 18.07.2006, 07:56, insgesamt 1-mal geändert.

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 11.07.2006, 08:19

Hallo

@icjobs
Wenn du noch dazugeschrieben hättest:
Uns sperrt man mit: User-agent: ?????
Wir benutzen die IP's ??.???.??.??? ....
unser Robot beachtet MetaTags ja / nein / welche
hätte ich den Beitrag richtig toll gefunden.

Gruss Kristian
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

icjobs
PostRank 1
PostRank 1
Beiträge: 5
Registriert: 11.07.2006, 07:06

Beitrag von icjobs » 11.07.2006, 09:05

Hallo Kristian,
dann schieben ich doch nochmals einige Informationen nach. Die meisten Angaben bzgl. User Agent (iCCrawler) sind in der erwähnten
https://www.iccenter.net/bot.htm zu finden.

Da sich die IP's ständig ändern und/oder erweitern, kann eine Aufzählung hier nie vollständig sein. ICCrawler läuft jedoch seit über einem Jahr unter dem selben Namen. :D

Metatags - wir folgen ausschliesslich: META HTTP-EQUIV=Refresh...

Beste Grüsse

ICjobs-Team
Zuletzt geändert von icjobs am 18.07.2006, 07:56, insgesamt 1-mal geändert.

thetrasher
PostRank 5
PostRank 5
Beiträge: 238
Registriert: 31.12.2005, 10:50
Wohnort: Bad Tölz

Beitrag von thetrasher » 11.07.2006, 10:45

icjobs hat geschrieben:Unser Crawler hat derzeit "nur" eine Aufgabe: Er füllt die Datenbank von www.icjobs.de
https://www.iccenter.net/bot.htm hat geschrieben:It collects documents from the web to build a searchable index for the ICCenter search engine.
Das "Intelligence Competence Center" beschäftigt sich mit Konkurrenz- und Wettbewerbsbeobachtung. Der ICCrawler arbeitet für das ICCenter und dessen Kunden.
https://www.iccenter.net/ hat geschrieben:Am 14.02.2006 wurde unser neues Produkt www.icjobs.de gestartet
icjobs hat geschrieben:ICCrawler läuft jedoch seit über einem Jahr unter dem selben Namen.
Ihr sammelt Jobangebote auf Vorrat und veröffentlicht sie dann ein halbes Jahr später?
Wie nannte sich der Crawler vorher?
https://www.iccenter.net/bot.htm hat geschrieben:Currently we're collecting ONLY job offers from company sites.
Wann habt ihr denn diesen Beruhigungssatz eingefügt, der stand doch früher noch nicht drin? Ein Bot der nur für die "größte Jobsuchmaschine Deutschlands" (solche Superlative sind grundsätzlich fragwürdig) arbeitet, müsste die Kennung "iCjobs (https://www.icjobs.de/bot.htm)" tragen.
icjobs hat geschrieben:Da sich die IP's ständig ändern und/oder erweitern, kann eine Aufzählung hier nie vollständig sein.
Sind die alten IPs erst gesperrt und somit verbrannt, müssen neue her.

icjobs
PostRank 1
PostRank 1
Beiträge: 5
Registriert: 11.07.2006, 07:06

Beitrag von icjobs » 11.07.2006, 11:27

Wow, pikante Fragen. :roll:

Unter welchem Aspekt diese Fragen gestellt werden kann ich zwar noch nicht so ganz nachvollziehen, werde aber jede Frage explizit beantworten um hier, wenn sich schon einmal ein Suchmaschinenbetreiber in einem Forum meldet keine Missverständnisse aufkommen zu lassen:

a) Die Intelligence Competence Center AG beschäftigt sich mit Konkurrenz und Wettbewerbsbeobachtung. Das ist richtig. Wie bereits erwähnt ziehen unsere ICCrawler ausschliesslich auf Stellenangebote ab und sind NICHT im Kundenauftrag unterwegs. Um verwertbares Material zur Wettbewerbsanalyse zu ergattern benötigt man neben Stellenanzeigen sicher noch mehr Datenmaterial und hier fängt dann das "Saugen" an, welches wir definitv NICHT betrieben.
Unsere Kunden haben sehr spezielle Wünsche die mit einem Massen-Crawling (4.2 Mio. Domains) sicher nicht zu befriedigen sind.
Ich möchte nicht wissen wieviele verwertungstechnisch hochbrisante Daten bei *oogle & co. vorliegen.
Sollten wir nicht zügig auf den Websites Jobangebote finden, dies ist durch link-technische aber auch byte-technische Limits begrenzt, so springen wir unmittelbar zur nächsten Seite über. Auch dies ist ein Beleg dafür, dass wir keineswegs "saugen".

b) Wir sammeln Jobangebote und veröffentlichen alle während des Crawl-Zyklus gefundenen Stellen am gleichen Tag.

c) Der ICCrawler nannte sich schon immer ICCrawler und läuft seit fast einem Jahr unter diesem Namen. Vorgänger gibt es keine.

d) Beruhigungssatz: Dieser Satz wurde ca. 6 Wochen nach dem ersten Start eingefügt. Somit vor fast 11 Monaten.

e) "größte Jobsuchmaschine": Wir behaupten dies absichtlich, da uns KEINE Suchmaschine bekannt ist, die derart viele Stellen aus Unternehmensseiten liest und KEIN Meta-Crawling (Crawlen von monster.com, jopilot.de, etc.) betreibt.

f) Bislang wurden keine IP's gesperrt, da wir uns an Fairplay-Regeln halten. Möchte jemand NICHT gecrawlt werden so kann er dies durch einfachen Ausschluss des ICCrawlers in der robots.txt tun. Der erste Besuch eines Crawlers gilt immer der Suche nach der robots.txt. Gibt es Auschlüsse, so unterbrechen wir sofort den Crawl-Vorgang.

Beste Grüsse

thetrasher
PostRank 5
PostRank 5
Beiträge: 238
Registriert: 31.12.2005, 10:50
Wohnort: Bad Tölz

Beitrag von thetrasher » 11.07.2006, 13:39

icjobs hat geschrieben:KEIN Meta-Crawling (Crawlen von monster.com, jopilot.de, etc.)
:arrow:[url]https://www.icjobs.de/faq.php[/url] hat geschrieben:Unser ICCrawler versucht Jobbörsen zu meiden.
https://www.icjobs.de/jobdetail.php?rid=6408873
:arrow:[url]https://www.icjobs.de/cache.php?rid=6408873[/url] hat geschrieben:Die Daten basieren auf Angaben der Arbeitgeber. Eine gewerbliche Nutzung ist nur mit schriftlicher Zustimmung der BA gestattet.
Ihr fragt die Datenspender nicht, ob ihr deren Internetseiten cachen dürft, oder? Ihr macht es (euch) einfach.
icjobs hat geschrieben:(...) unsere ICCrawler (...) sind NICHT im Kundenauftrag unterwegs.
:arrow:[url]https://www.iccenter.net/index.php?lang=de&location=technologie[/url] hat geschrieben:Die ICCrawler verschaffen den Kunden des Intelligence Competence Center einen einzigartigen Vorteil:
Informationen automatisch in Echtzeit im Internet selektiv zu finden und aufzubereiten.
(...)
Auf Wunsch bieten wir Ihnen darüber hinaus ein Frühwarnsystem für Weblogs und Newsgroups an.
Der Stellenmarkt ist, wie ihr selbst schreibt, nur ein Einsatzgebiet eurer Suchtechnologie.

Was ihr für Ziele mit dem Crawler auch verfolgt, eines steht fest:
:idea: Wer keine Jobangebote auf seiner Website hat oder seine Stellenangebote nicht auf eurer Seite (im Cache) veröffentlicht sehen will, kann den ICCrawler bedenkenlos aussperren.

Bisher kam der iCCrawler über folgende IPs:
212.227.76.83 (Schlund-Server)
212.227.93.221 (Schlund-Server)
212.89.128.89 (InfoServe GmbH)
82.165.39.218 (Schlund-Server)

Der Bot hält sich derzeit an die robots.txt.

icjobs
PostRank 1
PostRank 1
Beiträge: 5
Registriert: 11.07.2006, 07:06

Beitrag von icjobs » 11.07.2006, 14:02

Vielen Dank für den Hinweis bzgl. rekruter.de.

"Die Daten basieren auf Angaben der Arbeitgeber. Eine gewerbliche Nutzung ist nur mit schriftlicher Zustimmung der BA gestattet."

Genau DAS wollen wir vermeiden, kann jedoch bei mittlerweile ca. 1800 erkannten und "abgeschalteten" Börsen vorkommen.

Wir haben diese Börse umgehend aus dem Index entfernt. In ca. 6h werden diese Angebote von rekruter.de nicht mehr verfügbar sein.
Zuletzt geändert von icjobs am 11.07.2006, 15:30, insgesamt 1-mal geändert.

thetrasher
PostRank 5
PostRank 5
Beiträge: 238
Registriert: 31.12.2005, 10:50
Wohnort: Bad Tölz

Beitrag von thetrasher » 20.07.2006, 18:21

Die Kennung des ICjobs-/ICCenter-Bots hat sich geändert.

IP: 212.227.93.221

UA früher: "iCCrawler (https://www.iccenter.net/bot.htm)"

UA jetzt: "ICCrawler - ICjobs (https://www.icjobs.de/bot.htm)"

icjobs
PostRank 1
PostRank 1
Beiträge: 5
Registriert: 11.07.2006, 07:06

Beitrag von icjobs » 20.07.2006, 18:48

Das ist korrekt! Seit vorgestern laufen auf ALLEN IP's diese neuen user agents.

Grund waren die sinnvollen Anregungen hier im Forum. Jetzt sagt bereits der Name des user agent aus, wozu der Crawler genutzt wird.

IC - I see... :)

Merci dafür.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag