Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Datenbank: Suchmaschinen Robots/Spider/Crawler

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Gesperrt Gesperrt
viggen
PostRank 10
PostRank 10
Beiträge: 6249
Registriert: 12.05.2003, 14:44

Beitrag von viggen » 10.08.2003, 14:36

Hier werden alle bekannten Suchmaschinen Robots/Spider/Crawler gelistet.
________________________________________________________________________

Boitho.com-robot/1.1
Spider von der norwegischen Suchmaschine https://www.boitho.com/index.htm.en
(englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 217.118.38.226 - 217.118.38.234

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: boitho.com-robot
Disallow: /

_______________________________________________________________________

Gigabot/1.0
Spider von der englischsprachigen Suchmaschine www.gigablast.com,
beachtet Robots.txt
bekannte IP: 63.236.66.119 | 216.243.113.1

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: gigabot
Disallow: /

_______________________________________________________________________

Slurp (slurp/si,slurp/cat)
Spider des Datenproviders Inktomi https://www.inktomi.com/slurp.html
beachtet Robots.txt
bekannte IP: 66.196.64.0 - 66.196.127.255 | 209.131.32.0 - 209.131.63.255

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: slurp
Disallow: /


Anmerkung: Wichtiger Robot - Inktomi liefert Daten für MSN und Hotbot
_______________________________________________________________________

Szukacz/1.5
Spider von der polnischsprachigen Suchmaschine https://www.szukacz.pl/
(deutsche und englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 193.218.115.XXX | 194.181.35.X
bramka.proszynski.pl und brama.proszynski.pl

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: szukacz
Disallow: /

_______________________________________________________________________

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 21.10.2004, 09:06

Googlebot
Es ist zu beachten, daß sich der Googlebot mit verschiedenen User-agents identifiziert.
Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
Googlebot/2.1 (+https://www.googlebot.com/bot.html)
Googlebot/2.1 (+https://www.google.com/bot.html)
Daher ist, sofern man cloakt, nur IP-basiertes Cloaking wirklich sicher
beachtet robots.txt

bekannte IP-Bereiche:
crawl1.googlebot.com - crawl9.googlebot.com: 216.239.46.0 - 216.239.46.255
crawl10.googlebot.com - crawl15.googlebot.com: 64.68.84.0 - 64.68.84.255
crawl16.googlebot.com - crawl21.googlebot.com : 64.68.85.0 - 64.68.85.255
crawl22.googlebot.com - crawl27.googlebot.com: 64.68.80.0 - 64.68.80.255
crawl28.googlebot.com - crawl30.googlebot.com: 64.68.81.0 - 64.68.81.80 (?)
crawl31.googlebot.com - crawl36.googlebot.com: 64.68.88.0 - 64.68.88.208 (?)
crawler1.googlebot.com - crawler6.googlebot.com: 64.68.86.0 - 64.68.86.208 (?)
crawler7.googlebot.com - crawler9.googlebot.com: 64.68.87.0 - 64.68.87.80 (?)
crawler10.googlebot.com - crawler15.googlebot.com: 64.68.82.0 - 64.68.82.208 (?)
Bei den mit (?) angegebenen Bereichen ist die obere Grenze empirisch gesichert.

Um diesen Robot vom Spidern Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Googlebot
Disallow: /

--------
Nachtrag vom 01.11.04 : Während der Googlebot ohne Mozilla-Kennung seine Anfragen als HTTP/1.0 sendet, allerdings tatsächlich HTTP/1.1 unterstützt, sendet der Googlebot mit Mozilla-Kennung ausdrücklich HTTP/1.1 - Anfragen und unterstützt u.a. GZIP
Ferner ist darauf hinzuweisen, daß bei den beiden nicht-Mozilla-Varianten der Accept-Type verschieden ist. application/xhtml+xml wird allerdings nicht unterstützt. (Quelle)

google.com/bot.html
text/html,text/plain
text/html,text/plain,application/*

googlebot.com/bot.html
text/html,text/plain
text/html,text/plain,application/*
text/html,text/plain,application/xml,text/xml,application/atom+xml

_______________________________________________________________________

Googlebot/Test
März/April 2004 und derzeit nicht mehr im Einsatz. Der Roboter wurde bei mir von 64.68.89.144-190 sowie 64.68.83.132-204 und 64.68.81.152 gesichtet. Es handelt sich also um einen echten Google-Roboter. Manche Benutzer bei webmasterworld berichteten, daß robots.txt nicht geholt worden wäre - bei mir allerdings schon. Der Roboter holte auch JavaScript-Dateien.

_______________________________________________________________________

Googlebot-Image/1.0
Die Google-Bildersuche.

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Googlebot-Image
Disallow: /

_______________________________________________________________________


Mediapartners-Google/2.1 (+https://www.googlebot.com/bot.html)
Google-AdSense-Roboter. Dieser taucht auch in Ihren Logs auf, wenn sie kein AdSense einsetzen, die Seite aber von einem Benutzer von Opera besucht wird, da diese Software, sofern man sie nicht erwirbt, sich durch kontextuelle Anzeigen finanziert.
beachtet robots.txt
IP-Bereiche: 66.249.64/20

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein (nicht AdSense-Nutzer!)

User-agent: Mediapartners-Google
Disallow: /

_______________________________________________________________________


msnbot
Die MSN-Suche basiert nicht mehr auf Drittanbietern, sondern wird jetzt selbst entwickelt.
msnbot/0.11
msnbot/0.3 (+https://search.msn.com/msnbot.htm)
beachtet robots.txt
IP-Bereiche:
65.54.188.0 - 65.54.188.255
131.107.137.? - 131.107.163.?
204.95.96.? - 204.95.111.? (Bereich nicht scharf einzugrenzen)
207.46.98.* (Bereich nicht scharf einzugrenzen)
207.68.146.56 (einzelne IP)

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: msnbot
Disallow: /

Um einen zeitlichen Mindestabstand zwischen einzelnen Zugriffen dieses Roboters zu erwirken, geben sie folgende Zeile in Ihre Robots.txt ein (Zeitangabe in Sekunden). Der Befehl Crawl-delay wird ausschließlich von msnbot unterstützt.

User-agent: msnbot
Crawl-delay: 30

_______________________________________________________________________


Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Man achte auf die nicht geschlossene Klammer. Es handelt sich um einen e-mail Sammler, der naturgemäß keine robots.txt holt und mittels

RewriteCond %{HTTP_USER_AGENT} DTS\ Agent$

in der Datei .htaccess, sofern Ihr Anbieter diese unterstützt, ausgesperrt werden sollte.

_______________________________________________________________________

Eine gute Sammlung findet sich auch in drei Teilen bei 1, 2, 3.
Weiterhin existiert bei WebmasterWorld die Updated and Collated Bot List (u.U. Benutzerkonto bei WebmasterWorld notwendig)
Zuletzt geändert von bull am 01.11.2004, 21:32, insgesamt 7-mal geändert.

Webby
Administrator
Administrator
Beiträge: 5420
Registriert: 17.10.2001, 01:00

Beitrag von Webby » 21.10.2004, 10:48

Wow!
Klasse info Ihr beiden!

Was ist mit den 'Yahoo! Slurp' robot?
Wissen wir schon die IP range usw?

Alan
ABAKUS Internet Marketing
Professionelle Suchmaschinenoptimierung und Suchmaschinenmarketing

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 21.10.2004, 14:45

Yahoo

Mozilla/5.0 (compatible; Yahoo! Slurp; https://help.yahoo.com/help/us/ysearch/slurp)
IP-Bereich: 66.196.90.22 - 66.196.91.131 (max.)
209.131.32.0 - 209.131.63.255
66.196.101.*
66.196.65.34 (mehr? - nur robots.txt)
66.196.72.13 - 66.196.72.106 (mehr?)
Es handelt sich um eine Weiterentwicklung von Inktomi Slurp.

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Slurp
Disallow: /

_______________________________________________________________________

Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com)
Übernahme dieser Information aus Drittquelle, da dieser bei mir noch nicht gesichtet wurde. Es ist davon auszugehen, daß er entweder außer Betrieb ist oder außer Betrieb gehen wird. Es handelt sich offenbar um eine Weiterentwicklung von FAST-WebCrawler/3.x Multimedia, da FAST von Yahoo! gekauft wurde.
IP-Bereich: 66.77.73.*
_______________________________________________________________________

Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
IP-Bereich: 66.94.233.*
Der Roboter holt mittlerweile robots.txt (bis mindestens KW 42/2004 nicht!), hält sich allerdings nicht daran. Nach offiziellen Informationen sollte eigentlich

User-agent: MMCrawler
Disallow: /

in der robots.txt bewirken, daß nicht gecrawlt wird.
Zuletzt geändert von bull am 01.11.2004, 11:54, insgesamt 1-mal geändert.

Webby
Administrator
Administrator
Beiträge: 5420
Registriert: 17.10.2001, 01:00

Beitrag von Webby » 21.10.2004, 19:33

Danke :-)
ABAKUS Internet Marketing
Professionelle Suchmaschinenoptimierung und Suchmaschinenmarketing

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 22.10.2004, 10:08

Nachtrag IP-Bereiche Googlebot:

66.249.64.0 - 66.249.64.208 (obere Grenze empirisch)
66.209.65.*
66.249.66.* (?)

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 05.01.2005, 21:58

66.196.72.13 - 66.196.72.235 (empirisch)
68.142.249.* (verzeinzelte)
68.142.250.* (verzeinzelte)
68.142.251.* (verzeinzelte)
ferner empirisch
66.196.80.10 - 66.196.80.163,
66.196.90.16 - 66.196.91.248,
66.196.92.10 - 66.196.92.239

Dank auch an Maschenka

Gesperrt
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag