ca. 5000 404 Crawling-Fehler in Webmastertools nach Umzug

Beitrag von **scheune09** » 04.01.2012, 17:58

Hallo Zusammen,

wir haben unser Shopsystem von xtCommerce zu Magento gewechselt. Soweit auch alles wunderbar, allerdings habe ich jetzt ein paar Probleme mit den Webmastertools:

1) Laut Sitemap sollten 5.775 URLs übermittelt sein, er gibt mir jedoch an, dass nur 156 im Index sind.

2) Die Crawling-Fehler geben an, dass ca. 100.000 URLs durch die Robots.txt gesperrt sind. Hierbei handelt es sich meist um URLs mit Session IDs etc., das sollte also in Ordnung sein.

Was mich jedoch stutzig macht ist, dass ca 5000 URLs als 404 (nicht gefunden) vermerkt sind.

Das sind einerseits alte Pfade aus dem alten Shop die so nicht mehr existieren und auch nicht umgeleitet werden konnten aus folgendem Grund:

altes Format: shop/kategorie/
neues format: shop/kategorie/unterkategorie.html

da wir bei weiterleitung von /shop/kategorie/ zu shop/kategorie/unterkategorie.html auch sämtliche unterkategorien weiterleiten und konstrukte wie shop/kategorie/unterkategorie.html/2.unterkategorie.html zustande kommen würden. Gibt es hierfür eine alternative Lösung? Z.B. eine 301 Weiterleitung die nur dann greift, wenn die URL nicht länger ist?

Andere Fehler entstehen durch korrigierte Produktnamen. Z.B. bei Löschung eines Lehrzeichens entsteht eine neue URL und das Produkt ist nicht mehr unter der alten URL zu erreichen.

Jetzt meine Frage: Ist das ganze schlimm, also führt das zu Abwertungen bei Google? Gibt es elegante Lösungen für das Ganze? 5000 URLs per Hand löschen wäre natürlich nicht besonders. Falls sich jemand drum kümmern möchte können wir das auch gern gegen Geld machen.

Danke vorab,

scheune09

von **Anzeige von ABAKUS** »

Erfolgreiche und optimale Nutzung mit Magento Shopsystemen! Nutzen Sie unsere jahrelange Erfahrung mit Magento Shopsystemen und lassen Sie sich beraten!

Lesen Sie die wichtigsten Magento-Optimierungsmaßnahmen oder kontaktieren Sie uns direkt unter: 0511 / 300325-0

Beitrag von **scheune09** » 09.01.2012, 10:52

Hat irgendjemand Ideen?

Beitrag von **Melegrian** » 10.01.2012, 19:10

scheune09 hat geschrieben:Die Crawling-Fehler geben an, dass ca. 100.000 URLs durch die Robots.txt gesperrt sind. Hierbei handelt es sich meist um URLs mit Session IDs etc., das sollte also in Ordnung sein.

Was sperrt Ihr über die robots.txt? Seiten mit PHPSESSID im QueryString? Dann wäre es besser diese gleich über das Meta-Element (Meta-Tag) robots auszuschließen.

Code: Alles auswählen

<?php
if &#40;isset&#40;$_GET&#91;"PHPSESSID"&#93;&#41; and !empty&#40;$_GET&#91;"PHPSESSID"&#93;&#41;&#41;&#123;$robots = "noindex,nofollow";&#125;
else &#123;$robots = "index,follow";&#125;
?>
......
<meta name="robots" content="<?php echo $robots; ?>">

Und noch besser wäre es, wenn die Session-IDs nur bei eingeloggten Usern angezeigt werden oder so. Müsste eine Abfrage erstellt werden, wenn nicht eingeloggt, dann 0. Zumindest könnte ich mir das so eventuell vorstellen. Habe aber keine Ahnung von diesen ganzen fertigen Systemen.

Code: Alles auswählen

<?php 
ini_set&#40;"session.use_trans_sid", "0"&#41;;
session_start&#40;&#41;;

scheune09 hat geschrieben:Das sind einerseits alte Pfade aus dem alten Shop die so nicht mehr existieren und auch nicht umgeleitet werden konnten aus folgendem Grund:

Sind die denn noch irgendwo und irgendwie verlinkt? Wenn die Seiten einfach nur nicht mehr existent sind und auch keine Links mehr zu diesen Seiten existieren, dann sollten die in ferner Zukunft eigentlich von allein verschwinden. Dauert halt nur eine unbestimmte Zeit.

scheune09 hat geschrieben:Andere Fehler entstehen durch korrigierte Produktnamen.

Nun gut, die müssten dann halt immer gleich umgeleitet werden.

von **Anzeige von ABAKUS** »

Beitrag von **scheune09** » 12.01.2012, 12:45

Hallo Melegrian,

danke für die Antwort. In der Robots.txt steht folgendes:

Code: Alles auswählen

User-agent&#58; *
User-agent&#58; *	
Disallow&#58; /index.php/
Disallow&#58; /*?
Disallow&#58; /*.js$
Disallow&#58; /*.css$
Disallow&#58; /404/
Disallow&#58; /admin/
Disallow&#58; /api/
Disallow&#58; /app/
Disallow&#58; /catalog/category/view/
Disallow&#58; /catalog/product/view/
Disallow&#58; /catalog/product_compare/
Disallow&#58; /catalogsearch/
Disallow&#58; /cgi-bin/
Disallow&#58; /checkout/
Disallow&#58; /contacts/
Disallow&#58; /customer/
Disallow&#58; /downloader/
Disallow&#58; /install/
Disallow&#58; /js/
Disallow&#58; /lib/
Disallow&#58; /magento/
Disallow&#58; /media/
Disallow&#58; /newsletter/
Disallow&#58; /pkginfo/
Disallow&#58; /private/
Disallow&#58; /poll/
Disallow&#58; /report/
Disallow&#58; /review/
Disallow&#58; /sendfriend/
Disallow&#58; /skin/
Disallow&#58; /tag/
Disallow&#58; /var/
Disallow&#58; /wishlist/
Sitemap&#58; http&#58;//www.kaelteklimashop.de/sitemap.xml

Dadurch werden z.B. die verschiedenen Arten der Kategorieseiten gesperrt: shop.de/kategorie.html?limit=50 zum Beispiel.

Die 404 Seiten sind noch stellenweise verlinkt, dort tritt aber das genannte Problem auf. Gibt es einen .htaccess Befehl, der veranlasst, dass die Regel nur greift, wenn die URL so endet, wie angegeben (und keine weiteren Bestandteile mehr hat)?

Vielen Dank!

Beitrag von **Melegrian** » 12.01.2012, 15:44

Mit diesem Eintrag in der robots.txt

Disallow: /*?

sollten zwar alle URLs gesperrt werden, die ein Fragezeichen enthalten und somit auch URLs wie www. domain.de/?PHPSESSID=123456789abc12345679abc12345678,

https://support.google.com/webmasters/b ... wer=156449

doch die Angelegenheit hat einen Haken. Alle Seiten, die über die robots.txt gesperrt werden, werden zwar im Normalfall von Google weder gecrawlt noch indexiert, jedoch nur wenn der Bot nicht über einen externen Link auf die Seite kam. Google schreibt dazu:

Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden.

Und:

Sollen die Inhalte einer Seite nie dem Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, muss ein "noindex"-Meta-Tag verwendet werden.

https://support.google.com/webmasters/b ... wer=156449

Somit käme nur ein Weg ähnlich wie bereits oben erwähnt

Code: Alles auswählen

<?php
if &#40;isset&#40;$_GET&#91;"SID"&#93;&#41; and !empty&#40;$_GET&#91;"SID"&#93;&#41;&#41;&#123;$robots = "noindex,nofollow";&#125;
else &#123;$robots = "index,follow";&#125;
?>
......
<meta name="robots" content="<?php echo $robots; ?>">

in Frage, um die ersten 100.000 Seiten dauerhaft loszuwerden.

Zum anderen Problem. Habe ich jetzt nicht getestet und bin mir deshalb nicht völlig sicher ob die Schreibweise so richtig ist, sollte jedoch (zumindest nach meinen gegenwärtigen Vorstellungen, die fehlerbelastet sein könnten) alles zur Startseite umleiten, was nach shop/kategorie/ nicht mindestens noch 2 Zeichen enthält:

Code: Alles auswählen

RewriteCond %&#123;REQUEST_URI&#125; !^/shop/&#40;&#91;a-zA-Z0-9-&#93;+&#41;/&#40;.&#123;2,&#125;&#41;$ 
RewriteRule ^&#40;.*&#41;$ /? &#91;L,R=301&#93;

Könnte aber auch ein Durcheinander ergeben, weil dann auch /shop/impressum.htm und so umgeleitet würde. Somit wäre das nur erst einmal ein Ansatz, jedoch noch keine Lösung. Besser wäre es, wenn man da noch irgend einen konstanten Pfad hätte, um nicht über ! Ausschluss zu gehen, sondern ohne ! und nur diese. Denke, mir fällt da noch etwas anderes ein.

Geht denn diese Schreibweise auch mit 0?
Falls ja, so könnte es funktionieren.

Code: Alles auswählen

RewriteCond %&#123;REQUEST_URI&#125; ^/shop/&#40;&#91;a-zA-Z0-9-&#93;+&#41;/&#40;.&#123;,0&#125;&#41;$
RewriteRule ^&#40;.*&#41;$ /? &#91;L,R=301&#93;

von **Anzeige von ABAKUS** »

Beitrag von **scheune09** » 13.01.2012, 13:33

Hi,

auf eine Seite mit Fragezeichen in der URL verweist kein externer Backlink, daher sollte das ok sein. Oder geht es auch um interne Verlinkungen?

Zur .htaccess scheint das schon der richtige Ansatz zu sein - wir wollen ja aber NUR DANN umleiten, wenn die URL hinter /kategorie/ endet. Geht das so auch?

Danke und Gruß,

scheune09

Beitrag von **Melegrian** » 13.01.2012, 20:42

Habe einen kleinen Test gemacht, die obige Variante ging nicht, doch diese beiden Varianten funktionierten.

Existiert: /demoshop/demo.php

Existiert nicht: /demoshop/demo/ und /demoshop/demo

Ein Aufruf dieser URL wurde nicht weitergeleitet, die Seite wurde normal geladen:

http:// localhost/demoshop/demo.php

Ein Aufruf dieser URLs wurde zur Startseite weitergeleitet:

http:// localhost/demoshop/demo/
http:// localhost/demoshop/demo

Zwischen den beiden Varianten konnte ich keinen Unterschied im Verhalten feststellen:

Code: Alles auswählen

RewriteEngine on
RewriteCond %&#123;REQUEST_URI&#125; ^/demoshop/&#40;&#91;a-zA-Z0-9-&#93;+&#41;/&#40;.&#123;0,0&#125;&#41;$
RewriteRule ^&#40;.*&#41;$ /? &#91;L,R=301&#93;

Und:

Code: Alles auswählen

RewriteEngine on
RewriteCond %&#123;REQUEST_URI&#125; ^/demoshop/&#40;&#91;a-zA-Z0-9-&#93;+&#41;/$
RewriteRule ^&#40;.*&#41;$ /? &#91;L,R=301&#93;

In der ersten Variante wird nach einem Muster gesucht, bei dem hinter /demoshop/demo/ mindesten 0 und höchsten 0 Zeichen folgen. In der zweiten Variante wird das Suchmuster auf /demoshop/demo/ begrenzt. Testen müsstest Du das ohnehin noch einmal in Ruhe.