Seite 1 von 1

Googlebot crawlt URL genau alle 60 Minuten, seit Monaten

Verfasst: 30.06.2009, 17:09
von SchpongeBob
Guten Tag,

ich habe folgende Beobachtung gemacht und hätte gerne mal ein paar Spekulationen dazu:

Umgebung:
.de Domain; mehrere Jahre alt; nicht sonderlich optimiert; 100k+ Seiten; 100k+ Pis/d

jetzt habe ich für sehr wenige Seiten festgestellt, dass der googlebot diese
* genau alle 60 Minuten abruft und
* das seit Monaten, jede Stunde, ohne Pause,
* keine Änderung des Intervalls,
* kein Wechseln der Seiten obwohl es tausende ähnlicher Seiten gibt,
* Content auf den Seiten ist konstant,
* nur einige wechselnde Content-Elemente (wie News-Teaser o.ä)

also nur mal so ein Ausschnitt wie konstant das aussieht ... wie gesagt die selbe Url wird auch heute noch in diesem Intervall gecrawlt:

Code: Alles auswählen

2009-01-12 04:01:49  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 05:01:25  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 06:00:49  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 07:02:01  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 08:01:21  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 09:00:54  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 10:00:31  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 11:00:32  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 12:00:37  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 13:01:34  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 14:01:29  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
2009-01-12 15:01:51  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
(zur Info: die IP gehört Google)

ich habe eigentlich nur 2 Ideen:
- google hat festgestellt, dass diese Seiten ihren content nicht mehr ändern (im Gegensatz zu vielen anderen Seiten) und nimmt diese um die dynamischen Content-Elemente zu beobachten, also: "alles was sich auf dieser Seite noch ändert, brauchen wir woanders nicht beachten"
- oder wir werden irgendwann von "Google/SitePerformance" überrascht und können uns dort die Performance-Daten (Ladezeiten) für die letzten Jahre ansehen, also "ein performance tracking"

und was meint Ihr?
weitere Ideen oder jemand mit ähnlichen Beobachtungen ?

Verfasst:
von

Verfasst: 30.06.2009, 17:29
von Viktor1982
Wenn der Content auf den Seiten immer ständig derselbe bleibt, logischerweise möglich.

Meine beobachtungen zu dem neuen Bing der kam bei mir ca. 2-3 mal im monat.

Jetzt seid kurzem skannt er mein Shop ca. 18 mal pro Tag jemand ,

im Index ist aber nix ausser der Haupseite, kann es vielleicht mit der Social Media Optimization zusammenhängen, oder warum ist der Bot auf einmal so willig geworden ?

Jemand Vorschläge ?

Verfasst: 30.06.2009, 17:33
von SchpongeBob
Viktor1982 hat geschrieben:Wenn der Content auf den Seiten immer ständig derselbe bleibt, logischerweise möglich.
was ist logischerweise möglich?

Verfasst:
von

Verfasst: 30.06.2009, 17:49
von Viktor1982
Da habe ich mich mal wieder nicht gut ausgedrückt,

Gute Texte sind gut fürs Google Gehirn Logisch oder , also warum soll der Bot da nicht mal die Seite checken ob da nicht mal wieder mal neues zum essen gibts ?

:roll:

Verfasst: 30.06.2009, 20:31
von Lochmuehle
Ich hatte am Anfang ähnliches. Jetzt crawled google wieder moderat, zwar täglich aber nicht übertrieben.
Ich kann nicht belegen, aber die wichtigste Änderung war: Keine sichtbare session id's

Gruß,

Ernest

Verfasst: 01.07.2009, 15:02
von SchpongeBob
Lochmuehle hat geschrieben:Ich hatte am Anfang ähnliches. Jetzt crawled google wieder moderat, zwar täglich aber nicht übertrieben.
OK, um es nochmal deutlich zu sagen, der Bot crawlt täglich 10.000e Urls auf der Domain, aber einige davon genau im Abstand von 3600s,
d.h. es ist völlig klar, dass dies kein normales Content-Crawl-Scheduling ist!

Aber was ist es dann ...

Verfasst: 01.07.2009, 15:28
von bfs
Klingt auf dem ersten Blick natürlich wirklich nach einer Performancemessung. Aber das kann ich mir nicht vorstellen, denn die Performancekennziffern in den WMT zeigen ja die durchschnittliche Performance (über alle gecrawlten Seiten) an, dazu bräuchte Google nicht einzelne Seiten rausgreifen. Wenn was gemessen wird, dann vielleicht weniger die Performance, als mehr die Erreichbarkeit. Aber wäre mir neu, das Google sowas macht...

Mysteriös...

Verfasst: 01.07.2009, 21:27
von Lochmuehle
Korrektur: Ich hatte nicht nur ähnliches, sondern genau das gleiche!
Wenn deine Website sichtbare Session-ids verwendet (die im URL drin sind) dann ist für google jeder Zugriff auf eine Seite eine komplett neue url. Jedenfalls hat das Befehl site:link bei mir unzählige Einträge mit session IDs gebracht. Folglich ist deine Site unendlich groß.
Nach der Umstellung und das blokkieren von Abfragen mit session IDs im robots.txt hat google aufgehört diese Tausenden von Abfragen durch zu führen.
Das kann natürlich auch Zufall gewesen sein.

Ernest

Verfasst: 02.07.2009, 09:33
von SchpongeBob
Lochmuehle hat geschrieben:Korrektur: Ich hatte nicht nur ähnliches, sondern genau das gleiche!
Wenn deine Website sichtbare Session-ids verwendet (die im URL drin sind) dann ist für google jeder Zugriff auf eine Seite eine komplett neue url.
Ok, dann ist es also was ganz anderes!
Weil ich ja sagte und meinte das es die SELBE Url ist! :roll:

Aber klar, SessionIds nicht in der Url zu haben ist immer gut!