Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

ca. 5000 404 Crawling-Fehler in Webmastertools nach Umzug

Mehrere Domains, Domain-Umzug, neue Dateinamen, 301/302
Neues Thema Antworten
scheune09
PostRank 1
PostRank 1
Beiträge: 20
Registriert: 11.11.2007, 17:13

Beitrag von scheune09 » 04.01.2012, 17:58

Hallo Zusammen,

wir haben unser Shopsystem von xtCommerce zu Magento gewechselt. Soweit auch alles wunderbar, allerdings habe ich jetzt ein paar Probleme mit den Webmastertools:

1) Laut Sitemap sollten 5.775 URLs übermittelt sein, er gibt mir jedoch an, dass nur 156 im Index sind.

2) Die Crawling-Fehler geben an, dass ca. 100.000 URLs durch die Robots.txt gesperrt sind. Hierbei handelt es sich meist um URLs mit Session IDs etc., das sollte also in Ordnung sein.

Was mich jedoch stutzig macht ist, dass ca 5000 URLs als 404 (nicht gefunden) vermerkt sind.

Das sind einerseits alte Pfade aus dem alten Shop die so nicht mehr existieren und auch nicht umgeleitet werden konnten aus folgendem Grund:

altes Format: shop/kategorie/
neues format: shop/kategorie/unterkategorie.html

da wir bei weiterleitung von /shop/kategorie/ zu shop/kategorie/unterkategorie.html auch sämtliche unterkategorien weiterleiten und konstrukte wie shop/kategorie/unterkategorie.html/2.unterkategorie.html zustande kommen würden. Gibt es hierfür eine alternative Lösung? Z.B. eine 301 Weiterleitung die nur dann greift, wenn die URL nicht länger ist?

Andere Fehler entstehen durch korrigierte Produktnamen. Z.B. bei Löschung eines Lehrzeichens entsteht eine neue URL und das Produkt ist nicht mehr unter der alten URL zu erreichen.

Jetzt meine Frage: Ist das ganze schlimm, also führt das zu Abwertungen bei Google? Gibt es elegante Lösungen für das Ganze? 5000 URLs per Hand löschen wäre natürlich nicht besonders. Falls sich jemand drum kümmern möchte können wir das auch gern gegen Geld machen.

Danke vorab,

scheune09

Anzeige von ABAKUS

von Anzeige von ABAKUS »





Erfolgreiche und optimale Nutzung mit Magento Shopsystemen! Nutzen Sie unsere jahrelange Erfahrung mit Magento Shopsystemen und lassen Sie sich beraten!


Lesen Sie die wichtigsten Magento-Optimierungsmaßnahmen oder kontaktieren Sie uns direkt unter: 0511 / 300325-0


scheune09
PostRank 1
PostRank 1
Beiträge: 20
Registriert: 11.11.2007, 17:13

Beitrag von scheune09 » 09.01.2012, 10:52

Hat irgendjemand Ideen?

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 10.01.2012, 19:10

scheune09 hat geschrieben:Die Crawling-Fehler geben an, dass ca. 100.000 URLs durch die Robots.txt gesperrt sind. Hierbei handelt es sich meist um URLs mit Session IDs etc., das sollte also in Ordnung sein.
Was sperrt Ihr über die robots.txt? Seiten mit PHPSESSID im QueryString? Dann wäre es besser diese gleich über das Meta-Element (Meta-Tag) robots auszuschließen.

Code: Alles auswählen

<?php
if &#40;isset&#40;$_GET&#91;"PHPSESSID"&#93;&#41; and !empty&#40;$_GET&#91;"PHPSESSID"&#93;&#41;&#41;&#123;$robots = "noindex,nofollow";&#125;
else &#123;$robots = "index,follow";&#125;
?>
......
<meta name="robots" content="<?php echo $robots; ?>">
Und noch besser wäre es, wenn die Session-IDs nur bei eingeloggten Usern angezeigt werden oder so. Müsste eine Abfrage erstellt werden, wenn nicht eingeloggt, dann 0. Zumindest könnte ich mir das so eventuell vorstellen. Habe aber keine Ahnung von diesen ganzen fertigen Systemen.

Code: Alles auswählen

<?php 
ini_set&#40;"session.use_trans_sid", "0"&#41;;
session_start&#40;&#41;;
scheune09 hat geschrieben:Das sind einerseits alte Pfade aus dem alten Shop die so nicht mehr existieren und auch nicht umgeleitet werden konnten aus folgendem Grund:
Sind die denn noch irgendwo und irgendwie verlinkt? Wenn die Seiten einfach nur nicht mehr existent sind und auch keine Links mehr zu diesen Seiten existieren, dann sollten die in ferner Zukunft eigentlich von allein verschwinden. Dauert halt nur eine unbestimmte Zeit.
scheune09 hat geschrieben:Andere Fehler entstehen durch korrigierte Produktnamen.
Nun gut, die müssten dann halt immer gleich umgeleitet werden.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

scheune09
PostRank 1
PostRank 1
Beiträge: 20
Registriert: 11.11.2007, 17:13

Beitrag von scheune09 » 12.01.2012, 12:45

Hallo Melegrian,

danke für die Antwort. In der Robots.txt steht folgendes:

Code: Alles auswählen

User-agent&#58; *
User-agent&#58; *	
Disallow&#58; /index.php/
Disallow&#58; /*?
Disallow&#58; /*.js$
Disallow&#58; /*.css$
Disallow&#58; /404/
Disallow&#58; /admin/
Disallow&#58; /api/
Disallow&#58; /app/
Disallow&#58; /catalog/category/view/
Disallow&#58; /catalog/product/view/
Disallow&#58; /catalog/product_compare/
Disallow&#58; /catalogsearch/
Disallow&#58; /cgi-bin/
Disallow&#58; /checkout/
Disallow&#58; /contacts/
Disallow&#58; /customer/
Disallow&#58; /downloader/
Disallow&#58; /install/
Disallow&#58; /js/
Disallow&#58; /lib/
Disallow&#58; /magento/
Disallow&#58; /media/
Disallow&#58; /newsletter/
Disallow&#58; /pkginfo/
Disallow&#58; /private/
Disallow&#58; /poll/
Disallow&#58; /report/
Disallow&#58; /review/
Disallow&#58; /sendfriend/
Disallow&#58; /skin/
Disallow&#58; /tag/
Disallow&#58; /var/
Disallow&#58; /wishlist/
Sitemap&#58; http&#58;//www.kaelteklimashop.de/sitemap.xml
Dadurch werden z.B. die verschiedenen Arten der Kategorieseiten gesperrt: shop.de/kategorie.html?limit=50 zum Beispiel.

Die 404 Seiten sind noch stellenweise verlinkt, dort tritt aber das genannte Problem auf. Gibt es einen .htaccess Befehl, der veranlasst, dass die Regel nur greift, wenn die URL so endet, wie angegeben (und keine weiteren Bestandteile mehr hat)?

Vielen Dank!

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 12.01.2012, 15:44

Mit diesem Eintrag in der robots.txt

Disallow: /*?

sollten zwar alle URLs gesperrt werden, die ein Fragezeichen enthalten und somit auch URLs wie www. domain.de/?PHPSESSID=123456789abc12345679abc12345678,

https://support.google.com/webmasters/b ... wer=156449

doch die Angelegenheit hat einen Haken. Alle Seiten, die über die robots.txt gesperrt werden, werden zwar im Normalfall von Google weder gecrawlt noch indexiert, jedoch nur wenn der Bot nicht über einen externen Link auf die Seite kam. Google schreibt dazu:
Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden.
Und:
Sollen die Inhalte einer Seite nie dem Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, muss ein "noindex"-Meta-Tag verwendet werden.
https://support.google.com/webmasters/b ... wer=156449

Somit käme nur ein Weg ähnlich wie bereits oben erwähnt

Code: Alles auswählen

<?php
if &#40;isset&#40;$_GET&#91;"SID"&#93;&#41; and !empty&#40;$_GET&#91;"SID"&#93;&#41;&#41;&#123;$robots = "noindex,nofollow";&#125;
else &#123;$robots = "index,follow";&#125;
?>
......
<meta name="robots" content="<?php echo $robots; ?>">
in Frage, um die ersten 100.000 Seiten dauerhaft loszuwerden.

Zum anderen Problem. Habe ich jetzt nicht getestet und bin mir deshalb nicht völlig sicher ob die Schreibweise so richtig ist, sollte jedoch (zumindest nach meinen gegenwärtigen Vorstellungen, die fehlerbelastet sein könnten) alles zur Startseite umleiten, was nach shop/kategorie/ nicht mindestens noch 2 Zeichen enthält:

Code: Alles auswählen

RewriteCond %&#123;REQUEST_URI&#125; !^/shop/&#40;&#91;a-zA-Z0-9-&#93;+&#41;/&#40;.&#123;2,&#125;&#41;$ 
RewriteRule ^&#40;.*&#41;$ /? &#91;L,R=301&#93;
Könnte aber auch ein Durcheinander ergeben, weil dann auch /shop/impressum.htm und so umgeleitet würde. Somit wäre das nur erst einmal ein Ansatz, jedoch noch keine Lösung. Besser wäre es, wenn man da noch irgend einen konstanten Pfad hätte, um nicht über ! Ausschluss zu gehen, sondern ohne ! und nur diese. Denke, mir fällt da noch etwas anderes ein.

Geht denn diese Schreibweise auch mit 0?
Falls ja, so könnte es funktionieren.

Code: Alles auswählen

RewriteCond %&#123;REQUEST_URI&#125; ^/shop/&#40;&#91;a-zA-Z0-9-&#93;+&#41;/&#40;.&#123;,0&#125;&#41;$
RewriteRule ^&#40;.*&#41;$ /? &#91;L,R=301&#93;