Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Datenbank: Suchmaschinen Robots/Spider/Crawler

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Gesperrt Gesperrt
viggen
PostRank 10
PostRank 10
Beiträge: 6249
Registriert: 12.05.2003, 14:44

Beitrag von viggen » 10.08.2003, 14:36

Hier werden alle bekannten Suchmaschinen Robots/Spider/Crawler gelistet.
________________________________________________________________________

Boitho.com-robot/1.1
Spider von der norwegischen Suchmaschine https://www.boitho.com/index.htm.en
(englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 217.118.38.226 - 217.118.38.234

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: boitho.com-robot
Disallow: /

_______________________________________________________________________

Gigabot/1.0
Spider von der englischsprachigen Suchmaschine www.gigablast.com,
beachtet Robots.txt
bekannte IP: 63.236.66.119 | 216.243.113.1

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: gigabot
Disallow: /

_______________________________________________________________________

Slurp (slurp/si,slurp/cat)
Spider des Datenproviders Inktomi https://www.inktomi.com/slurp.html
beachtet Robots.txt
bekannte IP: 66.196.64.0 - 66.196.127.255 | 209.131.32.0 - 209.131.63.255

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: slurp
Disallow: /


Anmerkung: Wichtiger Robot - Inktomi liefert Daten für MSN und Hotbot
_______________________________________________________________________

Szukacz/1.5
Spider von der polnischsprachigen Suchmaschine https://www.szukacz.pl/
(deutsche und englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 193.218.115.XXX | 194.181.35.X
bramka.proszynski.pl und brama.proszynski.pl

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: szukacz
Disallow: /

_______________________________________________________________________