ABAKUS

Verfasst: **30.06.2009, 17:09**

Guten Tag,

ich habe folgende Beobachtung gemacht und hätte gerne mal ein paar Spekulationen dazu:

Umgebung:
.de Domain; mehrere Jahre alt; nicht sonderlich optimiert; 100k+ Seiten; 100k+ Pis/d

jetzt habe ich für sehr wenige Seiten festgestellt, dass der googlebot diese
* genau alle 60 Minuten abruft und
* das seit Monaten, jede Stunde, ohne Pause,
* keine Änderung des Intervalls,
* kein Wechseln der Seiten obwohl es tausende ähnlicher Seiten gibt,
* Content auf den Seiten ist konstant,
* nur einige wechselnde Content-Elemente (wie News-Teaser o.ä)

also nur mal so ein Ausschnitt wie konstant das aussieht ... wie gesagt die selbe Url wird auch heute noch in diesem Intervall gecrawlt:

Code: Alles auswählen

2009-01-12 04&#58;01&#58;49  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 05&#58;01&#58;25  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 06&#58;00&#58;49  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 07&#58;02&#58;01  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 08&#58;01&#58;21  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 09&#58;00&#58;54  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 10&#58;00&#58;31  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 11&#58;00&#58;32  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 12&#58;00&#58;37  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 13&#58;01&#58;34  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 14&#58;01&#58;29  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
2009-01-12 15&#58;01&#58;51  66.249.72.11 HTTP/1.1 200 "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"

(zur Info: die IP gehört Google)

ich habe eigentlich nur 2 Ideen:
- google hat festgestellt, dass diese Seiten ihren content nicht mehr ändern (im Gegensatz zu vielen anderen Seiten) und nimmt diese um die dynamischen Content-Elemente zu beobachten, also: "alles was sich auf dieser Seite noch ändert, brauchen wir woanders nicht beachten"
- oder wir werden irgendwann von "Google/SitePerformance" überrascht und können uns dort die Performance-Daten (Ladezeiten) für die letzten Jahre ansehen, also "ein performance tracking"

und was meint Ihr?
weitere Ideen oder jemand mit ähnlichen Beobachtungen ?

Verfasst: **30.06.2009, 17:29**

Wenn der Content auf den Seiten immer ständig derselbe bleibt, logischerweise möglich.

Meine beobachtungen zu dem neuen Bing der kam bei mir ca. 2-3 mal im monat.

Jetzt seid kurzem skannt er mein Shop ca. 18 mal pro Tag jemand ,

im Index ist aber nix ausser der Haupseite, kann es vielleicht mit der Social Media Optimization zusammenhängen, oder warum ist der Bot auf einmal so willig geworden ?

Jemand Vorschläge ?

Verfasst: **30.06.2009, 17:33**

Viktor1982 hat geschrieben:Wenn der Content auf den Seiten immer ständig derselbe bleibt, logischerweise möglich.

was ist logischerweise möglich?

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Verfasst: **30.06.2009, 17:49**

Da habe ich mich mal wieder nicht gut ausgedrückt,

Gute Texte sind gut fürs Google Gehirn Logisch oder , also warum soll der Bot da nicht mal die Seite checken ob da nicht mal wieder mal neues zum essen gibts ?

Verfasst: **30.06.2009, 20:31**

Ich hatte am Anfang ähnliches. Jetzt crawled google wieder moderat, zwar täglich aber nicht übertrieben.
Ich kann nicht belegen, aber die wichtigste Änderung war: Keine sichtbare session id's

Gruß,

Ernest

Verfasst: **01.07.2009, 15:02**

Lochmuehle hat geschrieben:Ich hatte am Anfang ähnliches. Jetzt crawled google wieder moderat, zwar täglich aber nicht übertrieben.

OK, um es nochmal deutlich zu sagen, der Bot crawlt täglich 10.000e Urls auf der Domain, aber einige davon genau im Abstand von 3600s,
d.h. es ist völlig klar, dass dies kein normales Content-Crawl-Scheduling ist!

Aber was ist es dann ...

Verfasst: **01.07.2009, 15:28**

Klingt auf dem ersten Blick natürlich wirklich nach einer Performancemessung. Aber das kann ich mir nicht vorstellen, denn die Performancekennziffern in den WMT zeigen ja die durchschnittliche Performance (über alle gecrawlten Seiten) an, dazu bräuchte Google nicht einzelne Seiten rausgreifen. Wenn was gemessen wird, dann vielleicht weniger die Performance, als mehr die Erreichbarkeit. Aber wäre mir neu, das Google sowas macht...

Mysteriös...

Verfasst: **01.07.2009, 21:27**

Korrektur: Ich hatte nicht nur ähnliches, sondern genau das gleiche!
Wenn deine Website sichtbare Session-ids verwendet (die im URL drin sind) dann ist für google jeder Zugriff auf eine Seite eine komplett neue url. Jedenfalls hat das Befehl site:link bei mir unzählige Einträge mit session IDs gebracht. Folglich ist deine Site unendlich groß.
Nach der Umstellung und das blokkieren von Abfragen mit session IDs im robots.txt hat google aufgehört diese Tausenden von Abfragen durch zu führen.
Das kann natürlich auch Zufall gewesen sein.

Ernest

Verfasst: **02.07.2009, 09:33**

Lochmuehle hat geschrieben:Korrektur: Ich hatte nicht nur ähnliches, sondern genau das gleiche!
Wenn deine Website sichtbare Session-ids verwendet (die im URL drin sind) dann ist für google jeder Zugriff auf eine Seite eine komplett neue url.

Ok, dann ist es also was ganz anderes!
Weil ich ja sagte und meinte das es die SELBE Url ist!

Aber klar, SessionIds nicht in der Url zu haben ist immer gut!

ABAKUS

Googlebot crawlt URL genau alle 60 Minuten, seit Monaten

Googlebot crawlt URL genau alle 60 Minuten, seit Monaten