Falsche URLs werden gecrawled

Beitrag von **TK1** » 26.01.2012, 15:33

Hallo.

Ich betreibe zwei Seiten auf den gleichen Server. Eigentlich läuft alles gut, jedoch crawled der Crawler von Google anscheinend Kategorien von der einen Seite, aber mit der URL der anderen.

Das sieht in etwa so aus:

www.seite1.de/kategorie1/1.html <-- diese Seite existiert und wird auch für diese TLD normal gecrawled und zugewiesen.

Der Crawler versucht nun die gleichen Inhalte auch auf der zweiten TLD zu finden:

www.seite2.de/kategorie1/1.html <-- diese Seite exisiert natürlich nicht auf dieser TLD, entsprechend zeigt der Crawler im Webmaster-Tool 404-Fehler dafür an (insgesamt mittlerweile einige Tausend).

Es handelt sich um zwei völlig verschiedene Seiten; die Sitemaps die ich eingereicht habe sind korrekt.

Hat einer eine Ahnung woran das liegt? Kann ich das irgendwie ausschließen für den Crawler, oder besser: vollständig beheben?

Gruß,
TK1

EDIT: Vielleicht noch erwähnenswert: Die zweite TLD hatte früher auf TLD1 weitergeleitet, bis sie jetzt quasi selbstständig ist. Ich kann mir vorstellen, dass der Crawler nach Pfaden sucht, die zuvor ja mittels dieser URL erreichbar waren, es aber nicht mehr sind. Kann ich das ausschließen?

von **Anzeige von ABAKUS** »

Beitrag von **CyberNibbler** » 26.01.2012, 18:00

TK1 hat geschrieben:EDIT: Vielleicht noch erwähnenswert: Die zweite TLD hatte früher auf TLD1 weitergeleitet, bis sie jetzt quasi selbstständig ist. Ich kann mir vorstellen, dass der Crawler nach Pfaden sucht, die zuvor ja mittels dieser URL erreichbar waren, es aber nicht mehr sind. Kann ich das ausschließen?

Das wird wohl der Grund sein. Ich würde die falschen URLs von Seite2 mittels 301 Redirect auf die richtigen URLs der Seite1 für den Googlebot umleiten.

Beitrag von **TK1** » 26.01.2012, 20:33

Folgende Probleme gibt es dabei:

1. über 33.000 Seiten
2. der nimmt auch neue Seiten mit auf, welche ich jetzt erst auf Seite 1 ertelle

Das macht das Ganze nicht so einfach.