Printversion als Doublette ausschließen

Beitrag von **mcchaos** » 21.12.2004, 17:09

Hallo!

Wie ich sehe, hat Google bei mir auch die "Druckversionen" indiziert. Also z.B.
index.htm -> Normale Version
index.htm?Print=Yes -> Druckversion

Die Druckversion hat ein etwas anderes Layout drumherum, aber der Text ist gleich. Was soll ich tun, um nicht für Doubletten abgestraft zu werden? Hatte die Durckversion schon auf "noindex" gesetzt, aber das interessiert Google scheinbar nicht.

Wie sollte ich es machen? Hatte die Idee, für die Printversion ein 410-Header auszuwerfen.

von **Anzeige von ABAKUS** »

Beitrag von **fool** » 21.12.2004, 17:33

dabei ist google doch eigentlich ganz brav beim beachten der robots.txt.

wie sieht denn dein eintrag da aus?

ach ja und in den metas?

fragt sich fool

Beitrag von **mcchaos** » 21.12.2004, 17:52

Danke für die Antwort!

Hm, nach der offiziellen Doku kann man in der robots.txt doch nur Verzeichnisse ausschließen. Okay, ich könnte alle Print-Versionen in ein Verzeichnis packen und per mod_rewrite umfrimeln, aber 5 Threads weiter hat jemand Berichtet, dass er trotz robots.txt die Seiten nicht rausbekommen hat.

Mein entsprechender Meta heißt: <META NAME="robots" CONTENT="noindex, follow">

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **fool** » 21.12.2004, 18:09

Hallo mcchaos,
ich würde es trotzdem so machen, dass du die printversion in ein eigenes verzeichnis packst und das dann in der robots sperrst. bei mir hat das mit google gut geklappt, zwar nicht übernacht aber doch nach kurzer zeit. kommt halt drauf an, wie regelmäßig du besuch vom googlebot kriegst. und dann halt nicht auf jeder printseite den netten metatag mit dem noindex, nofollow verwenden. (oder follow, könnte ja sein, dass du von der printversion links zur html version hast, die dir lieb sind).

<meta name="GOOGLEBOT" content="NOARCHIVE">
der könnte auch noch ganz nützlich sein, wenn du google nicht weiter aufblähen willst, fällt mir da noch ein.

kommt mir vor als hätte ich jetzt was vergessen.
gruß
fool

Beitrag von **mcchaos** » 21.12.2004, 18:13

Hi fool, danke dann versuche ich es so.

Darf ich fragen, was gegen einen 410 spricht bzw. warum ich nicht auf jeder Printseite den robots-meta mit noindex nehmen sollte? Bin halt neugierig...

Beitrag von **terese0815** » 21.12.2004, 18:17

Hi,

es ist etwas komisch auf einer Seite einen Link zu einer Seite zu setzen die eigentlich ja nicht existiert (410). Von daher könnte es Nachteile haben.

Grüße

Stefan

Beitrag von **mcchaos** » 22.12.2004, 10:30

Ich habe nochmal bei einem anderen Projekt geschaut: Dort habe ich sowohl noindex gesetzt als auch in der robots.txt den Ordner verboten. Hier handelt es sich um Navigationselemente, die eigentlich nicht im Index auftauchen sollten. Dennoch werden die Seiten fröhlich von Google bei "site:" angezeigt, sogar fast als erstes...

Da bei Euch die robots.txt ja zu funktionieren scheint: Habe ich einen Fehler in meiner?

User-agent: *
Disallow: /ordner1/
Disallow: /ordner2/