Seite 1 von 1

seltsames Verhalten von Googlebot-Image

Verfasst: 09.10.2004, 14:58
von fool
Hallo,

ich habe seit ein paar Tagen das Gefühl, dass der Bilderbot von Google hartnäckig wird. So sieht das immer wieder in meinen Logfiles aus:

66.249.66.83 - - [07/Oct/2004:04:52:02 +0200] "GET /robots.txt HTTP/1.1" 200 5721 "-" "Googlebot-Image/1.0"
66.249.66.83 - - [07/Oct/2004:08:47:29 +0200] "GET /robots.txt HTTP/1.1" 200 5721 "-" "Googlebot-Image/1.0"
66.249.66.83 - - [07/Oct/2004:12:13:46 +0200] "GET /robots.txt HTTP/1.1" 200 5721 "-" "Googlebot-Image/1.0"
66.249.66.83 - - [07/Oct/2004:15:25:11 +0200] "GET /robots.txt HTTP/1.1" 200 5721 "-" "Googlebot-Image/1.0"
66.249.66.83 - - [07/Oct/2004:19:48:37 +0200] "GET /robots.txt HTTP/1.1" 200 5721 "-" "Googlebot-Image/1.0"
66.249.66.83 - - [08/Oct/2004:01:21:32 +0200] "GET /robots.txt HTTP/1.1" 200 5721 "-" "Googlebot-Image/1.0"

Reicht das nicht, das der einmal die robots.txt liest und tschüß.
Kommt andauernd wieder.

Beobachtet noch jemand das Verhalten. Auf meinen Seiten ist das absolut neu. Hat er bislang nicht gemacht.

Schönes Wochenende
fool

Verfasst:
von

Verfasst: 09.10.2004, 15:42
von Southmedia
Der normale Googlebot holt sich auf vor jedem Durchgang die robots.txt - werden schon ihre Gründe dafür haben.

Verfasst: 09.10.2004, 18:08
von bull
Dies ist vollkommen natuerlich und sogar wuenschenswert! Man bedenke dass das Aequivalent von Googlebot-Image, Yahoo-MMCrawler, ueberhaupt keine robots.txt liest, da diese angeblich von Slurp ihm zugefuegt wird, und selbst wenn, diese nicht beachtet, jedenfalls nicht nach dem offiziellen User-agent, welcher in den ebenso offiziellen Yahoohilfeseiten angegeben ist. (siehe derzeit Diskussionen bei webmasterworld im Yahoo und Spider identification forum).
Insofern ist Googlebot-Image hier sehr brav. Man kann ihn also kurzfristig via robots.txt sperren, was der Sinn des oefteren Holens von robots.txt ist.

Gruesse

Verfasst: 10.10.2004, 16:53
von Luckybuy3000
Öfter mal was Neues.
Beobachte das selbe Phänomen auch erst seit 2 Tagen. Es ist für uns absolut neu. Da gibts tatsächlich nur ein zusätzliches Sperren für den Bilder Bot von google durch die robots.txt, wenn er sich denn daran hält. :(

Verfasst: 11.10.2004, 13:46
von fool
Hallo Luckybuy,
ich denke er hält sich dran. Bei mir holt er wirklich nur die robots.txt und weil er (also nur der ImageBot von Google) da verboten bekommen hat die Bilder zu sammeln, geht er auch wieder. Sonst hätte ich ihn in die .htaccess gepackt.
Also, wenn du deine Bilder nicht in der Bildersuche wiederfinden willst

User-agent: Googlebot-Image
Disallow: /

(Denke, das weißt du selbst, aber vielleicht hilft es einem anderen)

Gruß
fool

Verfasst: 11.10.2004, 15:47
von Herbert
Gleich dazu:

sollte man auch gleich andere Bildersammler mit einbeziehen (Yahoo, .......)?
Falls ja, welche Bot-Names haben die dann?
Danke für Info...

Verfasst: 11.10.2004, 17:18
von fool
Hallo Herbert,
per robots.txt habe ich außer dem Googlebot-Images noch gesperrt:

User-agent: vscooter
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Web Image Collector
Disallow: /

vscoter ist von altavista
psbot von picturesearch
und der andere hat einfach genervt.

Total hartnäckig waren die ersten beiden auf meinen Seiten zugange. Jetzt holen sie nur noch die robots.txt und sind wieder weg.

Gruß
fool

Verfasst: 11.10.2004, 20:31
von bull
RewriteCond %(HTTP_USER_AGENT) MMCrawler
RewriteRule ^.* [F]

runde klammern durch geschweifte ersetzen. Gibts auf dieser italienischen Tastatur nicht. vscooter - gibts den seit der Altavista-Uebernahme ùberhaupt noch??

vspider

Verfasst: 12.10.2004, 07:58
von Luckybuy3000
131.84.1.24 - - [04/Oct/2004:22:06:59 +0200] "GET /robots.txt HTTP/1.0" 200 6010 "-" "vspider"

Sperren durch robots.txt:

User-agent: vspider
Disallow: /

Im Zusammenhang mit dem Bilder-Bot von "G" würde mich allerdings interessieren, warum nach Dateien gesucht wird, die nicht vorhanden sind. Dieses seltsame Verhalten fiel bereits bei miragorobot auf.Das Bild über-flex-wissen.gif gibts natürlich nicht.

66.249.66.79 - - [11/Oct/2004:00:41:27 +0200] "GET /_yp_images/ueber-flex-wissen.gif HTTP/1.1" 404 300 "-" "Googlebot-Image/1.0"