Seite 1 von 1

robots.txt & disallow bei website-relaunch

Verfasst: 08.05.2013, 09:41
von Dippes
Hallo zusammen,

habe eine größere Seite relauncht mit etwa 7000 Seiten.

Die Verzeichnisstruktur hat sich geändert.
Damit die externen Links noch abrufbar sind, haben wir alle alten Seiten als Umleitungen auf die entsprechenden neuen Seiten angelegt.

Beispiel alte Seiten:
www.beispieldomain.de/en/XY_1234.html
www.beispieldomain.de/en/XY_1235.html
www.beispieldomain.de/en/XY_1236.html

Damit diese nicht mehr im Index auftauchen haben wir sie in der Robots geblockt durch
Disallow: /en/XY_

FRAGE:
Die Webmastertools-Daten zu indexierten, nicht-indexierten und geblockten Seiten könnten folgenden Schluss zulassen:
Durch das Disallow wurden auch die neuen Seiten hinter den Umleitungen geblockt.
Das kann aber eigentlich nicht sein, oder!?
Da alle neuen Seiten auch in der sitemap.xml submitted wurden...

Kann mir das irgendjemand mit Sicherheit bestätigen? Danke schon mal!
Ich verzweifel ein wenig...
:crazyeyes:

Verfasst:
von

Verfasst: 08.05.2013, 10:20
von Melegrian
Mit Sicherheit nicht, doch wenn der Googlebot in der robots.txt gesagt bekommt, dass die Seiten nicht mehr besucht werden sollten, wird der Googlebot die URLs der Seiten auch nicht mehr aufrufen und wenn Googlebot die Seiten nicht mehr aufruft, kann der Server die nicht mehr erfolgenden Aufrufe auch nicht mehr weiterleiten.

Verfasst: 08.05.2013, 11:50
von JonasBreuer
Sehe ich genau so wie Melegrian. Disallow bedeutet, dass der Bot sich die entsprechenden URLs nicht angucken darf. Er bekommt also die Umleitung gar nicht mit. Du erreichst damit eher das Gegenteil, nämlich dass die alten Seiten länger im Index bleiben.

Fazit: Schmeiß die Anweisung in der robots.txt raus. Durch das 301 wird Google selbst die alten URLs deindizieren und dafür die neuen URLs indizieren.

Verfasst:
von

Verfasst: 08.05.2013, 14:46
von Dippes
ja stimmt, setzen wir so um .

Danke!

Verfasst: 08.05.2013, 15:18
von IT-Knecht
Für ein uralten Forum mit 8000 Threads habe ich bei einem Softwareupdate aufgeräumt.
Je nach dem robots.txt, 301 oder 404.
Nach sechs Wochen ist die Anzahl der Seiten bei site:domain.tld (70000) noch nicht zurück gegegangen.
(Ist mir auch egal, es kommt nicht so drauf an und die alten Seiten ranken nicht mehr.)

Insbesondere die per Robots txt gesperrten URLs bleiben im Index, mit dem Vermerk:
"Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar."

Was Google einmal in den Krallen hat will Google nicht mehr loslassen.
Ein bisschen blöd ist das, wenn schon die URL Informationen enthält, zu denen man nicht gefunden werden will.

Die Entfernung einer Seite über die WMT hat allerdings binnen 24h geklappt.


- Martin