Wie ich sehe, hat Google bei mir auch die "Druckversionen" indiziert. Also z.B.
index.htm -> Normale Version
index.htm?Print=Yes -> Druckversion
Die Druckversion hat ein etwas anderes Layout drumherum, aber der Text ist gleich. Was soll ich tun, um nicht für Doubletten abgestraft zu werden? Hatte die Durckversion schon auf "noindex" gesetzt, aber das interessiert Google scheinbar nicht.
Wie sollte ich es machen? Hatte die Idee, für die Printversion ein 410-Header auszuwerfen.
Hm, nach der offiziellen Doku kann man in der robots.txt doch nur Verzeichnisse ausschließen. Okay, ich könnte alle Print-Versionen in ein Verzeichnis packen und per mod_rewrite umfrimeln, aber 5 Threads weiter hat jemand Berichtet, dass er trotz robots.txt die Seiten nicht rausbekommen hat.
Mein entsprechender Meta heißt: <META NAME="robots" CONTENT="noindex, follow">
Hallo mcchaos,
ich würde es trotzdem so machen, dass du die printversion in ein eigenes verzeichnis packst und das dann in der robots sperrst. bei mir hat das mit google gut geklappt, zwar nicht übernacht aber doch nach kurzer zeit. kommt halt drauf an, wie regelmäßig du besuch vom googlebot kriegst. und dann halt nicht auf jeder printseite den netten metatag mit dem noindex, nofollow verwenden. (oder follow, könnte ja sein, dass du von der printversion links zur html version hast, die dir lieb sind).
<meta name="GOOGLEBOT" content="NOARCHIVE">
der könnte auch noch ganz nützlich sein, wenn du google nicht weiter aufblähen willst, fällt mir da noch ein.
kommt mir vor als hätte ich jetzt was vergessen.
gruß
fool
Darf ich fragen, was gegen einen 410 spricht bzw. warum ich nicht auf jeder Printseite den robots-meta mit noindex nehmen sollte? Bin halt neugierig...
Ich habe nochmal bei einem anderen Projekt geschaut: Dort habe ich sowohl noindex gesetzt als auch in der robots.txt den Ordner verboten. Hier handelt es sich um Navigationselemente, die eigentlich nicht im Index auftauchen sollten. Dennoch werden die Seiten fröhlich von Google bei "site:" angezeigt, sogar fast als erstes...
Da bei Euch die robots.txt ja zu funktionieren scheint: Habe ich einen Fehler in meiner?