gerade bin ich zufällig über einen referer aus einem cache-eintrag gestolpert, dessen letzte aktualisierung am 9. april stattfand -- also vor fast genau 10 monaten!
da das auf dieser seite beworbene produkt schon seit längerem nicht mehr über die site erhältlich ist, ist das schon ein wenig ärgerlich für den besucher. wenn das häufig passiert, bedeutet das sogar einen image-schaden für die site, da kaum ein dau versteht, was der google-cache ist.
die seite selbst ist definitiv genau so lange nicht mehr verlinkt, wie das produkt nicht mehr erhältlich ist. ich wundere mich ein wenig, warum die seite noch immer im cache ist.
ich mach euch mal das milchmädchen: 8 milliarden seiten sind angeblich im cache. sagen wir, eine seite zu indexieren braucht im schnitt eine sekunde, dann entspricht ein kompletter aktualisierungslauf einem linearen zeitaufwand von rund 92.600 tagen. wenn wir vorsichtig von einer parallelen bearbeitung durch 1.000 bots ausgehen (was angesichts der google-hardware eher um 1-2 größenordnungen zu klein ist), so müßte eigentlich der gesamte cache rund alle 93 tage komplett erneuert werden.
nun gibt es natürlich noch ein paar gewichtungsunterschiede je nach pagerank etc., aber bei der o.g. site handelt es sich um eine site mit pagerank 5 -- zwar nicht top, aber auch nicht gerade eine private homepage -- mit regelmäßigen content-erweiterungen.
also: wie kann es sein, daß ein eintrag seit 10 monaten nicht aktualisiert wurde?
noch etwas: die adresse des eintrags ist noch gültig, zeigt aber nun auf eine seite für nicht mehr erhältliche produkte (im cache ist noch die produktseite). kann es sein, daß von google nach einer ersten indexierung längere zeit gar keine richtige neuindexierung gemacht wird, sondern nur noch die erreichbarkeit des links geprüft wird?
stimmt, die seite ist ein "zusätzliches ergebnis". ich habe gerade mal mit diesem fokus weiter gegraben, und da scheint es tatsächlich einen zusammenhang zu geben, bislang waren alle getesteten seiten, die "z.e." waren, auch veraltet -- die reell älteste war vom 15. märz.
hm. bleiben die seiten jetzt solange im cache, bis google 8 milliarden aktuelle seiten intus hat?
ich werde jetzt mal mit diesem seitensatz beobachten, ob bzw. wann davon welche gelöscht werden.