Seite 1 von 2

Woran erkennt Gurgel aktualisierte Seiten?

Verfasst: 23.03.2007, 11:09
von Borriz
Guckt Gurgel auf das Änderungsdatum von Dateien?

Ich will über PHP den Inhalt meiner Seiten regelmäßig verändern damit G* sieht wie toll die Seiten gepflegt werden. Aber wenn ich die Änderungen automatisiert über PHP mache ändert sich ja das Änderungsdatum der PHP nicht. Ist die Datei dann für G* geändert?

Verfasst:
von

Verfasst: 23.03.2007, 11:25
von chrizz
ob google drauf schaut weiß ich nicht. könnte mir aber vorstellen, dass es google nicht sonderlich interessiert, wenn sich das datum, aber nicht der content ändert.
was die php sache angeht: php ist ne serverseitige sprache. d.h. bevor die seite ausgeliefert wird, ist das php ding schon durch. insofern wird google nie deine php seite zu gesicht bekommen, sondern nur das resultat. folglich reicht eine änderung der meta tags mit php aus.....ob es sinn macht ist ne andere sache.

Verfasst: 23.03.2007, 11:42
von auftragslinker
vermute der text wird extrahiert und ein hash gebildet, der mit dem hash vom cache verglichen wird. vielleicht wird sogar eine art ähnlichkeit bei der berechnung berücksichtigt.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 23.03.2007, 11:56
von Borriz
Wie ist das denn mit last mod? Bringt das was wenn ich das auf die Seite schreibe?

Ich will ja den Content ändern, aber nicht von Hand. Ich sag mal, einmal die woche einen Textblock verändern damit die Dateigröße sich ändert.

Reicht das oder muss ich G* das mit irgendeiner Methode unter die Nase reiben, das die Datei nun anders ist?

Verfasst: 23.03.2007, 12:48
von auftragslinker
du kannst dich auch einfach bei google sitemaps registrieren, eine sitemap hochladen und als frequenz wöchentlich einstellen. dann weiss google, dass du wöchentlich was änderst.

Verfasst: 23.03.2007, 15:34
von Borriz
Ok, das mach ich ja schon. Ich will nur sichergehen, dass mein Änderungsscript bei G* auch Früchte trägt und die nicht denken: was? da ist ja nichts geändert weil das Datum der Datei immer gleichbleibt.

Macht ihr sowas?: Dateien ändern damit G* denkt: toll wie oft die Seite aktualisiert wird.

Und habt ihr auch schon dabei über Automatisierung nachgedacht?

Verfasst: 23.03.2007, 16:03
von chio
Das interessiert mich auch schon länger. php-Seiten haben kein Änderungsdatum, (auch nicht wenn sie .html heißen). Statische .html haben eines.
Liest Google das aus? Anders gefragt: Fragt Google wirklich beim Server nach, ob sich eine statische Seite geändert hat, bevor sie geholt wird, oder wird sie ohnehin immer geholt?
Und habt ihr auch schon dabei über Automatisierung nachgedacht?
Nachgedacht schon, aber letztlich ist es mir fast zuviel Aufwand. Es gibt ohnhin immer was zu ändern und außerdem ist nichtmal sicher, dass Seiten, die sich laufend ändern tatsächlich besser gelistet werden.

Verfasst: 23.03.2007, 17:56
von NeMeRo
sehr interessanter ansatz, das wusste ich nicht dass phpseiten kein änderungsdatum haben. insofern würde mich eine sinnvolle lösung auch sehr interessieren.
wobei ich fast denke: bevor google vom webserver den status anfragt grabben sie die seite gleich.

Verfasst: 23.03.2007, 20:48
von Borriz
Ist eine veränderte Dateigröße ein Indiz für G*?

Verfasst: 23.03.2007, 22:41
von chio
Ich muss ja hier mal gestehn dass diese banale kleine Frage, die ich auch immer wieder mal stelle: fragt der Googlebot nach dem Änderungsdatum, bevor er/sie eine Seite holt - zu einer massiven Vertrauenskrise in einige der Forenmitglieder führt. Zumal ich eher annehme: Sie wissens nicht, sonst würde es gelengentlich wer sagen. Wäre ja keine Geheimfrage.

Anders gesagt: Die Leute hier, die 50k .htaccess und 80k robots.txt haben, können mir diese banale Frage nicht beantworten. Weil die Antwort nur 2 Byte wäre, und das ist zuwenig cool. ;-)

Verfasst: 24.03.2007, 01:28
von besserwisser
also das Änderungsdatum wird meines Wissens ausgewertet und es gibt Leute, die positive Erfahrungen damit gemacht haben, hin und wieder ihre Dateien hochzuladen.

Verfasst: 24.03.2007, 04:21
von net(t)worker
Ohh... man... selten soviel seogarn in einem thread gelesen...

nicht das da jetzt jemand nen Buch raus macht oder so....... :roll:

Verfasst: 24.03.2007, 09:31
von oldInternetUser
Vielleicht sollten sich alle (außer net(t)worker) einmal das Grundprinzip des Http-Protokolls erarbeiten.

Der Bot schickt einen Seitenwunsch, dabei ist meistens das LastModified-Datum mitgeschickt (der Zeitpunkt der letzten Anfrage dieses Bots, falls er sich das gemerkt hat).

Der Server schickt eine Antwort zurück - entweder 200 und die Daten oder 304 oder 301 oder 404 oder 401 ...

Natürlich fragt der Bot nicht das Änderungsdatum ab - der hat ja keinen Zugriff auf die Platte. Und wenn der Server 200 zurückgibt, dann hat sich die Frage auch erledigt.

Wie der Server einen 304 ermittelt, ist Sache des Servers.

Verfasst: 24.03.2007, 10:24
von chio
Ahja...
oldInternetUser hat geschrieben:Der Bot schickt einen Seitenwunsch, dabei ist meistens das LastModified-Datum mitgeschickt
Was bedeuten diese Worte? Was heißt "meistens" - hängt das von der Laune ab?

Also sagt der GoogleBot: Wenn sich diese Seite seit [Zeit] geändert hat, dann reiche sie mal her. (?)
Wie der Server einen 304 ermittelt, ist Sache des Servers.
Und was tun die durchschnittlichen Server bei statischen Seiten, die sich NICHT verändert haben?
Wie kann man das feststellen, etwa was "mein" Server macht?
Natürlich fragt der Bot nicht das Änderungsdatum ab
Das Änderungsdatum steht bei statischen Seiten im http-Header, bei dynamischen nicht (bzw immer das aktuelle Datum) . Ein Bot wird eine Seite nicht jedes mal neu parsen und indexieren, sondern vorher mal sehen, ob das überhaupt nötig ist. Dazu könnte er das Änderungsdatum hernehmen (so vorhanden) oder einen Hash (geht immer, auch bei dynamischen Seiten)

Verfasst: 24.03.2007, 18:18
von oldInternetUser
chio hat geschrieben:Was heißt "meistens" - hängt das von der Laune ab?
Wenn eine Url zum ersten Mal besucht wird, kennt der Bot kein Datum, also wird er es wohl auch nicht mitschicken. Abgesehen davon bin ich nicht der google-Bot-Programmierer und kenne auch nicht alle anderen Suchmaschinen - also 'meistens' und nicht 'immer'.
chio hat geschrieben:Also sagt der GoogleBot: Wenn sich diese Seite seit [Zeit] geändert hat, dann reiche sie mal her.
Natürlich nicht, siehe oben. Ein Server kann auch LastModified ignorieren und die Seite immer ausliefern.
chio hat geschrieben:Und was tun die durchschnittlichen Server bei statischen Seiten, die sich NICHT verändert haben?
Da siehst Du bitte in den Quellcode vom Apache rein, da steht die Antwort. Oder frag Microsoft. Ich bin dafür jedenfalls zu faul. Mit größter Wahrscheinlichkeit wird sich der 'durchschnittliche Server' die letzte Dateiänderung ansehen.
chio hat geschrieben:Das Änderungsdatum steht bei statischen Seiten im http-Header, bei dynamischen nicht (bzw immer das aktuelle Datum) . Ein Bot wird eine Seite nicht jedes mal neu parsen und indexieren, sondern vorher mal sehen, ob das überhaupt nötig ist.
Deshalb gibt es ja LastModified und den 304-Statuscode. Ansonsten liefert der Server die Seite aus - außer, der Bot fragt nach dem Erhalt des 200-Headers den Rest nicht mehr ab.
chio hat geschrieben:Dazu könnte er das Änderungsdatum hernehmen (so vorhanden) oder einen Hash (geht immer, auch bei dynamischen Seiten)
Um einen Hash über den Inhalt zu berechnen, muß der Server die Seite komplett geliefert haben (plus 200-Statuscode).