Datenbank: Suchmaschinen Robots/Spider/Crawler

Beitrag von **viggen** » 10.08.2003, 14:36

Hier werden alle bekannten Suchmaschinen Robots/Spider/Crawler gelistet.
________________________________________________________________________

Boitho.com-robot/1.1
Spider von der norwegischen Suchmaschine https://www.boitho.com/index.htm.en
(englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 217.118.38.226 - 217.118.38.234

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: boitho.com-robot
Disallow: /
_______________________________________________________________________

Gigabot/1.0
Spider von der englischsprachigen Suchmaschine www.gigablast.com,
beachtet Robots.txt
bekannte IP: 63.236.66.119 | 216.243.113.1

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: gigabot
Disallow: /
_______________________________________________________________________

Slurp (slurp/si,slurp/cat)
Spider des Datenproviders Inktomi https://www.inktomi.com/slurp.html
beachtet Robots.txt
bekannte IP: 66.196.64.0 - 66.196.127.255 | 209.131.32.0 - 209.131.63.255

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: slurp
Disallow: /

Anmerkung: Wichtiger Robot - Inktomi liefert Daten für MSN und Hotbot
_______________________________________________________________________

Szukacz/1.5
Spider von der polnischsprachigen Suchmaschine https://www.szukacz.pl/
(deutsche und englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 193.218.115.XXX | 194.181.35.X
bramka.proszynski.pl und brama.proszynski.pl

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: szukacz
Disallow: /
_______________________________________________________________________

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **bull** » 21.10.2004, 09:06

Googlebot
Es ist zu beachten, daß sich der Googlebot mit verschiedenen User-agents identifiziert.

Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
Googlebot/2.1 (+https://www.googlebot.com/bot.html)
Googlebot/2.1 (+https://www.google.com/bot.html)

Daher ist, sofern man cloakt, nur IP-basiertes Cloaking wirklich sicher
beachtet robots.txt

bekannte IP-Bereiche:
crawl1.googlebot.com - crawl9.googlebot.com: 216.239.46.0 - 216.239.46.255
crawl10.googlebot.com - crawl15.googlebot.com: 64.68.84.0 - 64.68.84.255
crawl16.googlebot.com - crawl21.googlebot.com : 64.68.85.0 - 64.68.85.255
crawl22.googlebot.com - crawl27.googlebot.com: 64.68.80.0 - 64.68.80.255
crawl28.googlebot.com - crawl30.googlebot.com: 64.68.81.0 - 64.68.81.80 (?)
crawl31.googlebot.com - crawl36.googlebot.com: 64.68.88.0 - 64.68.88.208 (?)
crawler1.googlebot.com - crawler6.googlebot.com: 64.68.86.0 - 64.68.86.208 (?)
crawler7.googlebot.com - crawler9.googlebot.com: 64.68.87.0 - 64.68.87.80 (?)
crawler10.googlebot.com - crawler15.googlebot.com: 64.68.82.0 - 64.68.82.208 (?)
Bei den mit (?) angegebenen Bereichen ist die obere Grenze empirisch gesichert.

Um diesen Robot vom Spidern Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Googlebot
Disallow: /

--------
Nachtrag vom 01.11.04 : Während der Googlebot ohne Mozilla-Kennung seine Anfragen als HTTP/1.0 sendet, allerdings tatsächlich HTTP/1.1 unterstützt, sendet der Googlebot mit Mozilla-Kennung ausdrücklich HTTP/1.1 - Anfragen und unterstützt u.a. GZIP
Ferner ist darauf hinzuweisen, daß bei den beiden nicht-Mozilla-Varianten der Accept-Type verschieden ist. application/xhtml+xml wird allerdings nicht unterstützt. (Quelle)

google.com/bot.html
text/html,text/plain
text/html,text/plain,application/*

googlebot.com/bot.html
text/html,text/plain
text/html,text/plain,application/*
text/html,text/plain,application/xml,text/xml,application/atom+xml

_______________________________________________________________________

Googlebot/Test
März/April 2004 und derzeit nicht mehr im Einsatz. Der Roboter wurde bei mir von 64.68.89.144-190 sowie 64.68.83.132-204 und 64.68.81.152 gesichtet. Es handelt sich also um einen echten Google-Roboter. Manche Benutzer bei webmasterworld berichteten, daß robots.txt nicht geholt worden wäre - bei mir allerdings schon. Der Roboter holte auch JavaScript-Dateien.

_______________________________________________________________________

Googlebot-Image/1.0
Die Google-Bildersuche.

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Googlebot-Image
Disallow: /

_______________________________________________________________________

Mediapartners-Google/2.1 (+https://www.googlebot.com/bot.html)
Google-AdSense-Roboter. Dieser taucht auch in Ihren Logs auf, wenn sie kein AdSense einsetzen, die Seite aber von einem Benutzer von Opera besucht wird, da diese Software, sofern man sie nicht erwirbt, sich durch kontextuelle Anzeigen finanziert.
beachtet robots.txt
IP-Bereiche: 66.249.64/20

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein (nicht AdSense-Nutzer!)

User-agent: Mediapartners-Google
Disallow: /

_______________________________________________________________________

msnbot
Die MSN-Suche basiert nicht mehr auf Drittanbietern, sondern wird jetzt selbst entwickelt.

msnbot/0.11
msnbot/0.3 (+https://search.msn.com/msnbot.htm)

beachtet robots.txt
IP-Bereiche:
65.54.188.0 - 65.54.188.255
131.107.137.? - 131.107.163.?
204.95.96.? - 204.95.111.? (Bereich nicht scharf einzugrenzen)
207.46.98.* (Bereich nicht scharf einzugrenzen)
207.68.146.56 (einzelne IP)

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: msnbot
Disallow: /

Um einen zeitlichen Mindestabstand zwischen einzelnen Zugriffen dieses Roboters zu erwirken, geben sie folgende Zeile in Ihre Robots.txt ein (Zeitangabe in Sekunden). Der Befehl Crawl-delay wird ausschließlich von msnbot unterstützt.

User-agent: msnbot
Crawl-delay: 30

_______________________________________________________________________

Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Man achte auf die nicht geschlossene Klammer. Es handelt sich um einen e-mail Sammler, der naturgemäß keine robots.txt holt und mittels

RewriteCond %{HTTP_USER_AGENT} DTS\ Agent$

in der Datei .htaccess, sofern Ihr Anbieter diese unterstützt, ausgesperrt werden sollte.

_______________________________________________________________________

Eine gute Sammlung findet sich auch in drei Teilen bei 1, 2, 3.
Weiterhin existiert bei WebmasterWorld die Updated and Collated Bot List (u.U. Benutzerkonto bei WebmasterWorld notwendig)

Beitrag von **Webby** » 21.10.2004, 10:48

Wow!
Klasse info Ihr beiden!

Was ist mit den 'Yahoo! Slurp' robot?
Wissen wir schon die IP range usw?

Alan

Beitrag von **bull** » 21.10.2004, 14:45

Yahoo

Mozilla/5.0 (compatible; Yahoo! Slurp; https://help.yahoo.com/help/us/ysearch/slurp)
IP-Bereich: 66.196.90.22 - 66.196.91.131 (max.)
209.131.32.0 - 209.131.63.255
66.196.101.*
66.196.65.34 (mehr? - nur robots.txt)
66.196.72.13 - 66.196.72.106 (mehr?)
Es handelt sich um eine Weiterentwicklung von Inktomi Slurp.

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Slurp
Disallow: /

_______________________________________________________________________

Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com)
Übernahme dieser Information aus Drittquelle, da dieser bei mir noch nicht gesichtet wurde. Es ist davon auszugehen, daß er entweder außer Betrieb ist oder außer Betrieb gehen wird. Es handelt sich offenbar um eine Weiterentwicklung von FAST-WebCrawler/3.x Multimedia, da FAST von Yahoo! gekauft wurde.
IP-Bereich: 66.77.73.*
_______________________________________________________________________

Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
IP-Bereich: 66.94.233.*
Der Roboter holt mittlerweile robots.txt (bis mindestens KW 42/2004 nicht!), hält sich allerdings nicht daran. Nach offiziellen Informationen sollte eigentlich

User-agent: MMCrawler
Disallow: /

in der robots.txt bewirken, daß nicht gecrawlt wird.

Beitrag von **Webby** » 21.10.2004, 19:33

Danke

Beitrag von **bull** » 22.10.2004, 10:08

Nachtrag IP-Bereiche Googlebot:

66.249.64.0 - 66.249.64.208 (obere Grenze empirisch)
66.209.65.*
66.249.66.* (?)

Beitrag von **bull** » 05.01.2005, 21:58

66.196.72.13 - 66.196.72.235 (empirisch)
68.142.249.* (verzeinzelte)
68.142.250.* (verzeinzelte)
68.142.251.* (verzeinzelte)
ferner empirisch
66.196.80.10 - 66.196.80.163,
66.196.90.16 - 66.196.91.248,
66.196.92.10 - 66.196.92.239

Dank auch an Maschenka