Content Klau / Bot's aussperren - Hinweise
Verfasst: 04.05.2005, 10:53
Hi,
da ich hier .htaccess Lösungen sehe um Bots auszusperren, habe ich mal ein bisschen recherchiert:
Seiten wie:
h**p://www.searchi kus.de/intern_delsite.htm (@Mods bitte nicht entfernen, gehört auch nicht Jörg D.)
spidern fleissig und versprechen die robots.txt zu akzeptieren und das machen die glaube ich auch:
ich habe mal meine Logs nach den gespiderten Seiten überprüft und siehe da folgender Bot war da:
- allerdings als Googlebot getarnt (ist allerdings kein Googlebot)
- hat die robots.txt vorher überprüft
83.246.77.252 - - [22/Mar/2005:15:36:50 +0100] "GET /robots.txt HTTP/1.0" 200 371 "-" "Googlebot/2.1(+https://www.google.com/bot.html)"
83.246.77.252 - - [22/Mar/2005:15:37:50 +0100] "GET /meineseite?hat=copyright HTTP/1.0" 200 32140"-" "Googlebot/2.1(+https://www.google.com/bot.html)"
also lieber IP Adressen sammeln und diese sperren.
da ich hier .htaccess Lösungen sehe um Bots auszusperren, habe ich mal ein bisschen recherchiert:
Seiten wie:
h**p://www.searchi kus.de/intern_delsite.htm (@Mods bitte nicht entfernen, gehört auch nicht Jörg D.)
spidern fleissig und versprechen die robots.txt zu akzeptieren und das machen die glaube ich auch:
ich habe mal meine Logs nach den gespiderten Seiten überprüft und siehe da folgender Bot war da:
- allerdings als Googlebot getarnt (ist allerdings kein Googlebot)
- hat die robots.txt vorher überprüft
83.246.77.252 - - [22/Mar/2005:15:36:50 +0100] "GET /robots.txt HTTP/1.0" 200 371 "-" "Googlebot/2.1(+https://www.google.com/bot.html)"
83.246.77.252 - - [22/Mar/2005:15:37:50 +0100] "GET /meineseite?hat=copyright HTTP/1.0" 200 32140"-" "Googlebot/2.1(+https://www.google.com/bot.html)"
also lieber IP Adressen sammeln und diese sperren.