Seite 1 von 1

Googlebot-Problem?

Verfasst: 25.09.2004, 16:56
von robo
Hi Leute,

bei einigen Kundendomains ist mir folgendes in den Logs aufgefallen:

Code: Alles auswählen

66.249.64.141 - - [17/Sep/2004:06:58:37 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.141 - - [17/Sep/2004:06:58:37 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.47 - - [18/Sep/2004:08:57:17 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.47 - - [18/Sep/2004:08:57:18 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.28 - - [19/Sep/2004:11:29:46 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.28 - - [19/Sep/2004:11:29:46 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.28 - - [20/Sep/2004:08:24:10 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.28 - - [20/Sep/2004:08:24:10 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.167 - - [21/Sep/2004:09:34:17 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.167 - - [21/Sep/2004:09:34:17 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.30 - - [22/Sep/2004:09:02:36 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.168 - - [23/Sep/2004:09:11:20 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.168 - - [23/Sep/2004:09:11:20 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.143 - - [24/Sep/2004:10:01:07 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.143 - - [24/Sep/2004:10:01:07 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.143 - - [25/Sep/2004:07:09:55 +0200] "GET /robots.txt HTTP/1.0" 200 25 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.64.143 - - [25/Sep/2004:07:09:56 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
Das ist sehr merkwürdig, holt erst ganz normal die robots.txt und dann will er / holen, kriegt einen 200er Statuscode und dann wird aber nichts übertragen. Wenn, dann würde ich "304 -" erwarten, aber nicht "200 -". Was kann das sein? Problem beim Googlebot? Problem beim Webserver? Sind übrigens alles 1&1 Domains.

Hat jemnand dieses Phänomen noch beobachtet?

cu, Robo :)

Verfasst:
von

Verfasst: 25.09.2004, 17:12
von Southmedia
Der bekommt ganz normal den Seiteninhalt ausgeliefert, was der 200er ja auch anzeigt. Offensichtlich sieht der Bot keinen Grund die restlichen Seiten auch zu spidern, wahrscheinlich hat sich nichts geändert.

Einen 304 kriegt er nicht da der Bot selten die dazu notwendigen Header sendet.

Verfasst: 26.09.2004, 15:28
von robo
Southmedia hat geschrieben:Der bekommt ganz normal den Seiteninhalt ausgeliefert, was der 200er ja auch anzeigt.
Kriegt er ganz offensichtlich nicht, denn nach dem Statuscode kommt die Anzahl übertragenenr Bytes, und - heisst eben nichts übertragen. Das ist ja, was mich so sehr wundert!

cu, Robo :)

Verfasst: 28.09.2004, 19:08
von bull
Nicht ganz ok:

https://archive.apache.org/gnats/2209

Tatsächlich wäre bei If-Modified-Since ein 304 der korrekte Rückgabewert. Googlebot unterstützt IMS und GoogleGuy hat auch den Einsatz von IMS explizit empfohlen.

Verfasst: 28.09.2004, 19:59
von robo
bull hat geschrieben:Nicht ganz ok:

https://archive.apache.org/gnats/2209

Tatsächlich wäre bei If-Modified-Since ein 304 der korrekte Rückgabewert. Googlebot unterstützt IMS und GoogleGuy hat auch den Einsatz von IMS explizit empfohlen.
Hmmm ... bist du sicher, dass es dieser Bug ist? Da handelt es sich um IMS in Bezug auf /cgi-bin/, aber in meinem Fall ist es nicht /cgi-bin/, sondern /.

Aus dem Log von heute:

Code: Alles auswählen

66.249.64.173 - - [28/Sep/2004:03:26:42 +0200] "GET / HTTP/1.0" 200 - "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
66.249.65.240 - - [28/Sep/2004:04:39:56 +0200] "GET /robots.txt HTTP/1.1" 200 25 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.65.240 - - [28/Sep/2004:04:39:56 +0200] "GET / HTTP/1.1" 200 14614 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.134 - - [28/Sep/2004:07:41:54 +0200] "GET /robots.txt HTTP/1.1" 200 25 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"´
Der eine Googlebot kriegt nix, der andere schon ... hmmm ... vielleicht liegt's doch am Googlebot? Ich habe leider keine weiteren Diagnosemöglichkeiten, die Domain liegt auf einem 1&1 Hosting-Paket. Da ist nix mit Packet-Sniffer oder so ...

cu, Robo :)

Verfasst: 28.09.2004, 20:20
von bull
Hmmm ... bist du sicher
Nein, aber ich kannte die konkrete Situation auch nicht. Ganz offenbar gibt Dein Server aber auch, wie der dritte Logeintrag zeigt, ab und an durchaus was durch (14614). Du cloakst nicht zufällig? Bemerke auch, daß alle HTTP/1.1 was zurückgeben, der erste Eintrag aber 1.0 ist.
letzten schwachsinnigen Beitrag von mir gelöscht

Verfasst: 28.09.2004, 21:02
von robo
bull hat geschrieben:
Hmmm ... bist du sicher
Nein, aber ich kannte die konkrete Situation auch nicht. Ganz offenbar gibt Dein Server aber auch, wie der dritte Logeintrag zeigt, ab und an durchaus was durch (14614).
Ja, aber ich weiss ja nicht, wie die Anfrage im Detail aussah.
bull hat geschrieben:Du cloakst nicht zufällig?
Nope. Nicht mal ein kleines bisschen.
bull hat geschrieben:Bemerke auch, daß alle HTTP/1.1 was zurückgeben, der erste Eintrag aber 1.0 ist.
Hmm ... das hat nichts zu sagen. Denn ich habe jetzt ein bissl mit Telnet und HTTP-Requests rumgespielt. Das Ergebnis: Wenn ich beim Request einen passenden IMS-Header schicke, und zwar egal ob mit HTTP/1.0 oder HTTP/1.1, dann bekomme ich immer "304 Not Modified" zur Antwort, ins Logfile schreibt er aber "200 -" - ARGLLLLL!!!!!!

Was nun? Beim 1&1 Support beschweren? Leider habe ich die Erfahrung gemacht, dass man Anworten bekommt, die nicht zur Frage passen oder 5 mal nachbohren muss, wenn man solche hochspeziellen, technischen Fragen stellt. Offensichtlich gibt es dort nicht so sehr viele Leute, die Fragen, die über 08/15-Niveau hinausgehen, noch verstehen, geschweige denn beantworten können.

cu, Robo :)