habe eine Seite unter Wordpress am laufen, arbeite dort mit sprechenden URLs also:
domain.de/meine-unterseite/
diese ist auch unter
domain.de/?page_id=3
erreichbar.
In der robots.txt habe ich ?page_id= von der indizierung ausgeschlossen. Wenn ich den Header der Seite /?page_id=3 teste wird mir ein 301 ausgegeben mit der Weiterleitung auf domain.de/meine-unterseite/.
Sieht erst mal alles okay aus.
In den Webmastertools werden mir bei "URLs durch robots.txt eingeschränkt" auch alle URLs mit /?page_id= angezeigt.
Wenn ich aber eine site: Abfrage vornehme tauchen auf einmal alle URLs dort auf: die sprechenden URLs + die /?page_id= Urls - also bekomme ich die doppelte Anzahl an Seiten angezeigt wenn ich die site: Abfrage durchführe.
Im Google Index befinden sich also alle Seiten doppelt obwohl sie lt. webmastertools eingeschränkt und per 301 weitergeleitet werden.
Frage: verteilt sich jetzt meine Power auf die /page_id= Seiten oder ist das ein Darstellungsfehler der site-Abfrage oder hat Google hier tatsächlich DC erkannt ?
Sollte ich die page_id in den URL-Parametern der webmastertools ausschließen oder schließe ich hiermit automatisch auch die sprechenden URLs mit aus ?
Wie ist das Problem sonst zu lösen ? Hat jemand dasselbe Problem ? Oder ist es gar kein Problem nur ein Darstellungsfehler und die Power meiner Seite wird auf die page_id-Seiten gar nicht weitergegeben ?
Das Problem könnte dadurch auftreten, dass die Urls mal verlinkt waren und deshalb im Index auftauchen. Da du nun aber durch die robots.txt den Zugriff einschränkst, ist es nicht möglich den redirect zu erkennen. Ergo: die Seiten bleiben im Index.
Achtung, wenn eine Seite durch die robots.txt gesperrt ist, kann sie trotzdem im Index auftauchen, wenn auf die verlinkt wird. Google crawlt dann zwar den Inhalt nicht, kann aber auf grund der Ankertexte etc. eine Zuordnung der URL vornehmen.
Texte/Content schnell und effizient en masse produzieren » Article Wizard «
Also verlinkt habe ich die page_id nie - Links (auch interne) wurden immer auf die sprechende URL gesetzt.
Sollte ich also besser die URL nicht durch die robots.txt sperren und google durch die 301-Weiterleitung merken lassen dass die URL jetzt als sprechende URL existiert ?
canonical wurde gesetzt.
Ich wollte eigentlich nur die Ergebnisse der Suche aus dem Index raus haben. Oder macht das doch nichts aus ? Habe gedacht dass die Ergebnisse die mit /?=Suchbegriff indexiert werden zu DC führen. Ist das nicht der Fall ? Deshalb hatte ich Disallow: /*?* drin in der robots.txt
Wie sieht denn eure robots.txt bezüglich WP aus ?
Habe jetzt den Disallow: /*?* gelöscht und jetzt kann auch Google wieder drauf zugreifen und sieht den 301 Redirect.
Mal sehen ob die Anzahl der indexierten Seiten jetzt abnimmt.