ABAKUS

Verfasst: **04.05.2011, 11:25**

Hallo,

eine kleine Frage an die Robots.txt-Experten. Es geht um einen eher unwichtigen Blog, bei dem Google plötzlich trotz korrektem Rewrite einige Beiträge unter www.domain.de/?p=xxxx indexiert hat. Diese leiten zwar automatisch auf die Rewrite-Version weiter, jedoch möchte ich die Indexierung unter dieser URL-Form von Anfang an unterbinden.

Gehe ich recht in der Annahme, dass dies der korrekte Code wäre

Code: Alles auswählen

User-Agent&#58; Googlebot
Disallow&#58; /?p=*

und die Indexierung der Rewrite-URLs nicht beeinträchtigt würde?

Danke euch!

Verfasst: **04.05.2011, 12:32**

Sollte klappen: https://www.abakus-internet-marketing.d ... 47861.html

Aber: Wenn Google die URLs so indexiert, dann müssen sie irgendwie angelinkt werden oder in der Sitemap stehen -> da würde ich eher ansetzen.

Der Weg über die Robots.txt ist mMn der falsche, vor allem in der Hinsicht, dass - falls Links zu ?p=* Seiten existieren - diese nun wegfallen, da der Googlebot den Redirect zur neuen Seite nicht findet.

Verfasst: **04.05.2011, 12:57**

Hirnhamster hat geschrieben:Sollte klappen: https://www.abakus-internet-marketing.d ... 47861.html

Aber: Wenn Google die URLs so indexiert, dann müssen sie irgendwie angelinkt werden oder in der Sitemap stehen -> da würde ich eher ansetzen.

Der Weg über die Robots.txt ist mMn der falsche, vor allem in der Hinsicht, dass - falls Links zu ?p=* Seiten existieren - diese nun wegfallen, da der Googlebot den Redirect zur neuen Seite nicht findet.

Danke. Sie existieren aber nirgendwo. Das ist es ja. Weder in der XML-Sitemap, noch auf der Site selbst. Google indexiert einfach in 1% der Fälle doppelt (also sowohl ?p= als auch die Rewrite-Fassung, wobei im ersten Fall der Redirect erfolgt)

Verfasst: **04.05.2011, 15:48**

Und der isz auch ein gültiger 301 und kein 302er?

Verfasst: **09.05.2011, 07:12**

Schau mal den Quellcode des Blogs. In manchen Templates tauchen u.U. der Vorgänger- und der Nachfolger-Artikel sowie der Shortlink zum Artikel im Code auf und Google nutzt diese Einträge möglicherweise.

Code: Alles auswählen

<link rel='shortlink' href='http&#58;//www.domain.de.de/?p=1005' />

Die robots.txt geht so in Ordnung. Ist es wichtig, dass nur der Googlebot /?p=* nicht crawlen darf? Hier würde ich sicherlich auf User-Agent: * setzen. Wer weiß, vielleicht klaut Google jetzt ja bei den Bing-Serps

ABAKUS

Indexierung: Frage an die robots.txt-Experten

Indexierung: Frage an die robots.txt-Experten