Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Problem mit Google / Zugriff durch robots.txt gesperrt

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
MaikWF
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 04.06.2010, 09:37

Beitrag von MaikWF » 04.06.2010, 10:00

Hallo Forum,

ich habe ein Problem mit der Google-Indizierung, welches für mich absolut nicht nachvollziehbar ist. Ich wäre hocherfreut, wenn mir hier jemand helfen könnte.

Seit dem 18. Mai hat Google eine sehr wichtige Datei (https://www.nietenarmband-shop.de/nietenguertel01.html), über die rund 50% des Traffics generiert wird, aus dem dem Index entfernt. In den Webmaster Tools steht als Begründung, dass die Datei durch robots.txt gesperrt würde. Der Witz bei der Sache ist, ich hatte zu diesem Zeitpunkt gar keine robots.txt. Diese wurde kurz darauf von mir angelegt mit folgendem Inhalt:

User-agent: *
Allow: /

Das hat aber bis heute keine Besserung erbracht. Kann mir jemand sagen, wo das Problem liegt oder liegen könnte?

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Alda
PostRank 10
PostRank 10
Beiträge: 4584
Registriert: 27.01.2009, 20:19
Wohnort: Kaiserslautern

Beitrag von Alda » 04.06.2010, 10:49

"Allow" gehört da nicht rein. Wenn Der Bot zugriff auf alle Verzeichnisse und Seiten haben soll, steht in der robots.txt nichts.

Ansonsten keine Idee. Um die Ursache zu finden, müsste man u. U. mal das ganze Rootverzeichnis duchforsten, und umgeschriebene URLs prüfen.

Was mir aufgefallen ist, da gehen keine externen Links ein. Vielleicht hilft es, wenn Du da ganz gezielt ein paar Links draufsetzt.

Link-Geier
Nutzer/in
Nutzer/in
Beiträge: 2770
Registriert: 09.08.2009, 19:11

Beitrag von Link-Geier » 05.06.2010, 20:39

sieht irgendwie sehr spamig aus die Seite. Keine Inhalte, nur eine ewig wiederkehrende Auflistung von Keywords. Vielleicht helfen ja bessere, umfangreichere Beschreibungen zum jeweiligen Gürtel.

Schmeiß den Meta Keyword Tag raus.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

MaikWF
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 04.06.2010, 09:37

Beitrag von MaikWF » 06.06.2010, 10:11

Also gut, ich habe die robots.txt mal durch eine leere ersetzt.

Was ich in der Vergangenheit gemacht habe war, dass ich viele Auslaufartikel aus dem Sortiment genommen hab. Die URL ist natürlich erhalten geblieben, damit Links von Suchmaschinen nicht ins Leere führen. Auf der jeweiligen Artikelseite habe ich bloß eine HTML-Weiterleitung a la:

<meta http-equiv="refresh" content="6; URL=https://www.nietenarmband-shop.de/">

eingebaut. Außerdem habe ich dem Header folgende Zeile hinzugefügt:

<meta name="robots" content="noindex">.

Wobei trotzdem noch viele ausrangierte Artikel mit diesen Meta-Tags im Index sind.

Ich muss mal schauen, wo ich so ein paar externe Links unterbringe.

Nun ja, die "ewig wiederkehrende Auflistung von Keywords" erklärt sich damit, dass das Teil ein Onlineshop ist und kein Blog oder so.

Pompom
PostRank 10
PostRank 10
Beiträge: 3751
Registriert: 10.09.2004, 16:38

Beitrag von Pompom » 06.06.2010, 11:13

<meta http-equiv="refresh" content="6; URL=https://www.nietenarmband-shop.de/">

...ist eine gute Variante, Seiten oder Domains zu töten.
Der Server ist in der Lage, super Errorcodes zu senden, warum nutzt du diese Möglichkeit nicht ?

Wenn du eine "vorschriftsmässige" robots.txt haben möchtest, sollte diese nicht einfach leer sein, sondern:

User-agent: *


dann ist alles erlaubt.

Deinen Cursor finde ich übrigens äußerst schwachsinnig.

profo
PostRank 9
PostRank 9
Beiträge: 1703
Registriert: 18.01.2007, 18:51

Beitrag von profo » 06.06.2010, 11:54

MaikWF hat geschrieben:In den Webmaster Tools steht als Begründung, dass die Datei durch robots.txt gesperrt würde. Der Witz bei der Sache ist, ich hatte zu diesem Zeitpunkt gar keine robots.txt.
Das finde ich in der Tat auch sehr sonderbar. Falls noch einmal so etwas passiert schau Dir die robots.txt aus Google-Sicht unbedingt in den Webmastertools an (unter Website-Konfiguration -> Crawler-Zugriff).

Die hier angegebenen Varianten der robots.txt sollten übrigens *alle* in Deinem Sinn funktionieren. 1. Das "Allow: /" ist eine Google-Erweiterung, die andere evtl. nicht verstehen. 2. Die leere oder fehlende robots.txt bedeutet das gleiche. 3. Die "User-agent: *" ebenso und 4. wäre noch üblich: "User-agent: * [neue Zeile]Disallow: /".

@Pompon, den Cursor finde ich eigentlich ein gutes Beispiel dafür, was man zielgruppengerecht für eine Site tun kann. Muss ja nicht uns gefallen, sondern den Usern :)

MaikWF
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 04.06.2010, 09:37

Beitrag von MaikWF » 06.06.2010, 13:50

profo hat geschrieben:Das finde ich in der Tat auch sehr sonderbar. Falls noch einmal so etwas passiert schau Dir die robots.txt aus Google-Sicht unbedingt in den Webmastertools an (unter Website-Konfiguration -> Crawler-Zugriff).
Ich finde es auch sonderbar, zumal die Webseite eigentlich ganz einfach gestrickt ist und die Sache so klar sein sollte. Wenn ich die derzeitige Version der robots.txt teste (leere Datei), kommt nur der Standardtext:

Zugelassen
Als Verzeichnis erkannt; bestimmte Dateien weisen eventuell unterschiedliche Einschränkungen auf.


Unter Diagnose -> Crawling-Fehler steht:

https://www.nietenarmband-shop.de/nietenguertel01.html URL durch "robots.txt" eingeschränkt 18.05.2010
Aktualisiert am 02.06.2010


Das ist auch die einzige URL, die durch die robots.txt angeblich eingeschränkt ist. Aber wie gesagt, ich hatte zu diesem Zeitpunkt (18.05.) noch gar keine robots.txt. Grundsätzlich können und sollen bei diesem Webshop alle, bzw. möglichst viele Seiten indexiert werden.
@Pompon, den Cursor finde ich eigentlich ein gutes Beispiel dafür, was man zielgruppengerecht für eine Site tun kann. Muss ja nicht uns gefallen, sondern den Usern :)
Eben, für die Zielgruppe, auf die dieser Shop ausgerichtet ist, ist der Cursor passend. Ich erhalte von meinen Kunden auch durchweg positives Feedback was den Shop anbelangt. Abgesehen davon geht es hier um die robots.txt und nicht um den Cursor.

Ich hatte vorher bei dem Suchbegriff Nietengürtel eine Top10-Position inne, bei über 50.000 Suchergebnissen. Nun ist die Seite vollständig aus dem Google-Index verschwunden. Ok, Seiten verschwinden am laufenden Band, bloß kann ich das in diesem Fall überhaupt nicht nachvollziehen. Wenn die Seite wegen Überoptimierung entfernt worden wäre, dann wäre das wenigstens eine plausible Erklärung gewesen. Aber wegen der robots.txt? Kann doch gar nicht sein.

rieke
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 14.12.2010, 09:59

Beitrag von rieke » 01.02.2011, 20:40

Ich greife dieses alte Thema einmal auf, da ein Freund derzeit ein ähnliches Problem hat.
Die Links sind durch mod_rewrite alle auf domain.de/produkt-name umgeschrieben.

Seine robot Datei (auch laut google Webmaster Tool) :

User-agent: *
Disallow: /navi.php
Disallow: /druckansicht.php
Disallow: /suche.php
Disallow: /bestellabschluss.php
Disallow: /bestellvorgang.php
Disallow: /jtl.php
Disallow: /pass.php
Disallow: /registrieren.php
Disallow: /warenkorb.php
Disallow: /admin
Disallow: /admin/*


Es handelt sich um einen Shop. Laut Google Webmaster Tools unter Crawling Fehler, gibt es nun 48.160 URLs die "URL durch "robots.txt" eingeschränkt" (gesperrt) sind.
Ich habe mir die Mühe gemacht diese genauer an zu sehen, da er vermutet des sei von der Shop Software gegen doppelten Content. Aber ich finde auch ganz normale URLs zu seinen Produkten darin.

Er hat nun einen PR verloren (ja ich weiss der zählt nicht und ist unwichtig, aber man verliert ihn auch nicht Grundlos) und in google bei eingabe von site:https://seine-domain.de kommt jetzt 0, keine Seite ... wobei er aber immer noch Besucher über Google bekommt, sprich generell noch mit einigen Keywords gelistet wird.

Hat jemand ähnliches erlebt oder irgend eine Idee wo der Hase... ?

Beate
PostRank 2
PostRank 2
Beiträge: 39
Registriert: 14.11.2008, 09:22

Beitrag von Beate » 25.05.2011, 07:17

Ich würde auch sehr gerne wissen, warum die Seiten, die in der robots.txt gesperrt sind, in den WMT als "Crawling Fehler" wieder auftauchen.

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 25.05.2011, 07:51

Und ich wäre froh gewesen, wenn Du einen neuen Thread genommen hättest.... Hab mir nun alles durchgelesen um dann festzustellen, dass der von 2010 ist :o
Ich würde auch sehr gerne wissen, warum die Seiten, die in der robots.txt gesperrt sind, in den WMT als "Crawling Fehler" wieder auftauchen.
Das ist normale. Wenn die Seiten mal aufgenommen waren, auch wenn das schon Jahre her ist, dann werden die immer wieder mal geprüft. Sind die aber in der robots.txt gesperrt, dann kommen entsprechende Meldungen, da sie eben nicht aufgerufen werden können.

Ich habe etwa tausende "Fehlermeldungen" durch einen Kalender, der ist auch gesperrt, aber Google will jedes Jahr und jeden Monat crawlen....

Beate
PostRank 2
PostRank 2
Beiträge: 39
Registriert: 14.11.2008, 09:22

Beitrag von Beate » 25.05.2011, 08:00

Und ich wäre froh gewesen, wenn Du einen neuen Thread genommen hättest
Sorry! Ich wollte nur beweisen, dass "erst suchen dann fragen" befolgt habe ;-)
Das ist normal
Gut, dann bin ich beruhigt. Vielen Dank!

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 25.05.2011, 08:25

Sorry! Ich wollte nur beweisen, dass "erst suchen dann fragen" befolgt habe
Das ist immer gut :-)

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag