Problem mit Google / Zugriff durch robots.txt gesperrt

Beitrag von **MaikWF** » 04.06.2010, 10:00

Hallo Forum,

ich habe ein Problem mit der Google-Indizierung, welches für mich absolut nicht nachvollziehbar ist. Ich wäre hocherfreut, wenn mir hier jemand helfen könnte.

Seit dem 18. Mai hat Google eine sehr wichtige Datei (https://www.nietenarmband-shop.de/nietenguertel01.html), über die rund 50% des Traffics generiert wird, aus dem dem Index entfernt. In den Webmaster Tools steht als Begründung, dass die Datei durch robots.txt gesperrt würde. Der Witz bei der Sache ist, ich hatte zu diesem Zeitpunkt gar keine robots.txt. Diese wurde kurz darauf von mir angelegt mit folgendem Inhalt:

User-agent: *
Allow: /

Das hat aber bis heute keine Besserung erbracht. Kann mir jemand sagen, wo das Problem liegt oder liegen könnte?

von **Anzeige von ABAKUS** »

Beitrag von **Alda** » 04.06.2010, 10:49

"Allow" gehört da nicht rein. Wenn Der Bot zugriff auf alle Verzeichnisse und Seiten haben soll, steht in der robots.txt nichts.

Ansonsten keine Idee. Um die Ursache zu finden, müsste man u. U. mal das ganze Rootverzeichnis duchforsten, und umgeschriebene URLs prüfen.

Was mir aufgefallen ist, da gehen keine externen Links ein. Vielleicht hilft es, wenn Du da ganz gezielt ein paar Links draufsetzt.

Beitrag von **Link-Geier** » 05.06.2010, 20:39

sieht irgendwie sehr spamig aus die Seite. Keine Inhalte, nur eine ewig wiederkehrende Auflistung von Keywords. Vielleicht helfen ja bessere, umfangreichere Beschreibungen zum jeweiligen Gürtel.

Schmeiß den Meta Keyword Tag raus.

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **MaikWF** » 06.06.2010, 10:11

Also gut, ich habe die robots.txt mal durch eine leere ersetzt.

Was ich in der Vergangenheit gemacht habe war, dass ich viele Auslaufartikel aus dem Sortiment genommen hab. Die URL ist natürlich erhalten geblieben, damit Links von Suchmaschinen nicht ins Leere führen. Auf der jeweiligen Artikelseite habe ich bloß eine HTML-Weiterleitung a la:

<meta http-equiv="refresh" content="6; URL=https://www.nietenarmband-shop.de/">

eingebaut. Außerdem habe ich dem Header folgende Zeile hinzugefügt:

<meta name="robots" content="noindex">.

Wobei trotzdem noch viele ausrangierte Artikel mit diesen Meta-Tags im Index sind.

Ich muss mal schauen, wo ich so ein paar externe Links unterbringe.

Nun ja, die "ewig wiederkehrende Auflistung von Keywords" erklärt sich damit, dass das Teil ein Onlineshop ist und kein Blog oder so.

Beitrag von **Pompom** » 06.06.2010, 11:13

<meta http-equiv="refresh" content="6; URL=https://www.nietenarmband-shop.de/">

...ist eine gute Variante, Seiten oder Domains zu töten.
Der Server ist in der Lage, super Errorcodes zu senden, warum nutzt du diese Möglichkeit nicht ?

Wenn du eine "vorschriftsmässige" robots.txt haben möchtest, sollte diese nicht einfach leer sein, sondern:

User-agent: *

dann ist alles erlaubt.

Deinen Cursor finde ich übrigens äußerst schwachsinnig.

Beitrag von **profo** » 06.06.2010, 11:54

MaikWF hat geschrieben:In den Webmaster Tools steht als Begründung, dass die Datei durch robots.txt gesperrt würde. Der Witz bei der Sache ist, ich hatte zu diesem Zeitpunkt gar keine robots.txt.

Das finde ich in der Tat auch sehr sonderbar. Falls noch einmal so etwas passiert schau Dir die robots.txt aus Google-Sicht unbedingt in den Webmastertools an (unter Website-Konfiguration -> Crawler-Zugriff).

Die hier angegebenen Varianten der robots.txt sollten übrigens *alle* in Deinem Sinn funktionieren. 1. Das "Allow: /" ist eine Google-Erweiterung, die andere evtl. nicht verstehen. 2. Die leere oder fehlende robots.txt bedeutet das gleiche. 3. Die "User-agent: *" ebenso und 4. wäre noch üblich: "User-agent: * [neue Zeile]Disallow: /".

@Pompon, den Cursor finde ich eigentlich ein gutes Beispiel dafür, was man zielgruppengerecht für eine Site tun kann. Muss ja nicht uns gefallen, sondern den Usern

Beitrag von **MaikWF** » 06.06.2010, 13:50

profo hat geschrieben:Das finde ich in der Tat auch sehr sonderbar. Falls noch einmal so etwas passiert schau Dir die robots.txt aus Google-Sicht unbedingt in den Webmastertools an (unter Website-Konfiguration -> Crawler-Zugriff).

Ich finde es auch sonderbar, zumal die Webseite eigentlich ganz einfach gestrickt ist und die Sache so klar sein sollte. Wenn ich die derzeitige Version der robots.txt teste (leere Datei), kommt nur der Standardtext:

Zugelassen
Als Verzeichnis erkannt; bestimmte Dateien weisen eventuell unterschiedliche Einschränkungen auf.

Unter Diagnose -> Crawling-Fehler steht:

https://www.nietenarmband-shop.de/nietenguertel01.html URL durch "robots.txt" eingeschränkt 18.05.2010
Aktualisiert am 02.06.2010

Das ist auch die einzige URL, die durch die robots.txt angeblich eingeschränkt ist. Aber wie gesagt, ich hatte zu diesem Zeitpunkt (18.05.) noch gar keine robots.txt. Grundsätzlich können und sollen bei diesem Webshop alle, bzw. möglichst viele Seiten indexiert werden.

@Pompon, den Cursor finde ich eigentlich ein gutes Beispiel dafür, was man zielgruppengerecht für eine Site tun kann. Muss ja nicht uns gefallen, sondern den Usern

Eben, für die Zielgruppe, auf die dieser Shop ausgerichtet ist, ist der Cursor passend. Ich erhalte von meinen Kunden auch durchweg positives Feedback was den Shop anbelangt. Abgesehen davon geht es hier um die robots.txt und nicht um den Cursor.

Ich hatte vorher bei dem Suchbegriff Nietengürtel eine Top10-Position inne, bei über 50.000 Suchergebnissen. Nun ist die Seite vollständig aus dem Google-Index verschwunden. Ok, Seiten verschwinden am laufenden Band, bloß kann ich das in diesem Fall überhaupt nicht nachvollziehen. Wenn die Seite wegen Überoptimierung entfernt worden wäre, dann wäre das wenigstens eine plausible Erklärung gewesen. Aber wegen der robots.txt? Kann doch gar nicht sein.

Beitrag von **rieke** » 01.02.2011, 20:40

Ich greife dieses alte Thema einmal auf, da ein Freund derzeit ein ähnliches Problem hat.
Die Links sind durch mod_rewrite alle auf domain.de/produkt-name umgeschrieben.

Seine robot Datei (auch laut google Webmaster Tool) :

User-agent: *
Disallow: /navi.php
Disallow: /druckansicht.php
Disallow: /suche.php
Disallow: /bestellabschluss.php
Disallow: /bestellvorgang.php
Disallow: /jtl.php
Disallow: /pass.php
Disallow: /registrieren.php
Disallow: /warenkorb.php
Disallow: /admin
Disallow: /admin/*

Es handelt sich um einen Shop. Laut Google Webmaster Tools unter Crawling Fehler, gibt es nun 48.160 URLs die "URL durch "robots.txt" eingeschränkt" (gesperrt) sind.
Ich habe mir die Mühe gemacht diese genauer an zu sehen, da er vermutet des sei von der Shop Software gegen doppelten Content. Aber ich finde auch ganz normale URLs zu seinen Produkten darin.

Er hat nun einen PR verloren (ja ich weiss der zählt nicht und ist unwichtig, aber man verliert ihn auch nicht Grundlos) und in google bei eingabe von site:https://seine-domain.de kommt jetzt 0, keine Seite ... wobei er aber immer noch Besucher über Google bekommt, sprich generell noch mit einigen Keywords gelistet wird.

Hat jemand ähnliches erlebt oder irgend eine Idee wo der Hase... ?

Beitrag von **Beate** » 25.05.2011, 07:17

Ich würde auch sehr gerne wissen, warum die Seiten, die in der robots.txt gesperrt sind, in den WMT als "Crawling Fehler" wieder auftauchen.

Beitrag von **Synonym** » 25.05.2011, 07:51

Und ich wäre froh gewesen, wenn Du einen neuen Thread genommen hättest.... Hab mir nun alles durchgelesen um dann festzustellen, dass der von 2010 ist

Ich würde auch sehr gerne wissen, warum die Seiten, die in der robots.txt gesperrt sind, in den WMT als "Crawling Fehler" wieder auftauchen.

Das ist normale. Wenn die Seiten mal aufgenommen waren, auch wenn das schon Jahre her ist, dann werden die immer wieder mal geprüft. Sind die aber in der robots.txt gesperrt, dann kommen entsprechende Meldungen, da sie eben nicht aufgerufen werden können.

Ich habe etwa tausende "Fehlermeldungen" durch einen Kalender, der ist auch gesperrt, aber Google will jedes Jahr und jeden Monat crawlen....

Beitrag von **Beate** » 25.05.2011, 08:00

Und ich wäre froh gewesen, wenn Du einen neuen Thread genommen hättest

Sorry! Ich wollte nur beweisen, dass "erst suchen dann fragen" befolgt habe

Das ist normal

Gut, dann bin ich beruhigt. Vielen Dank!

Beitrag von **Synonym** » 25.05.2011, 08:25

Sorry! Ich wollte nur beweisen, dass "erst suchen dann fragen" befolgt habe

Das ist immer gut