Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Bei fehlender robots.txt Google blockiert zahlreiche URLs?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
1234d1
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 21.10.2009, 09:14

Beitrag von 1234d1 » 09.07.2012, 13:14

Hallo,

bei einem Webprojekt wurde durch ein CMS beim Aufruf von example.com/robots.txt per 200 Statuscode auf die Startseite geleitet (nicht schlau und wurde mittlerweile behoben).

Doch komischerweise wird in den Google Webmaster Tools angezeigt, dass Google die Robots.txt erkannt hat (wahrscheinlich wegen dem Statuscode) und zahlreiche URLs blockiert wurden. Wie geht denn das, wenn gar keine vorhanden war?

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


pr_sniper
PostRank 9
PostRank 9
Beiträge: 1766
Registriert: 07.02.2006, 19:21

Beitrag von pr_sniper » 10.07.2012, 17:37

Befasse Dich zuerst etwas genauer mit robots.txt: sie wird nur benötigt, wenn Du tatsächlich Verzeichnisse und Dateien von einer "Indizierung (=Aufnahme ins Verzeichnis) ausschließend möchtest.

Sie blockt auch überhaupt nichts, ist lediglich eine Empfehlung an Bots.

robots.txt und .htaccess gehören zum Grundwerkzeug des Webmasters, erst viel später des SEOs.

1234d1
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 21.10.2009, 09:14

Beitrag von 1234d1 » 11.07.2012, 08:09

Ich glaub du hast mein Problem nicht verstanden. Den Sinn der robots.txt verstehe ich auch. Aber hier existierte ja gar keine - und dennoch zeigt Google in den Webmaster Tools an, dass Sie gefunden wurde und auf Basis dieser zahlreiche URLs blockiert wurden.

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 11.07.2012, 09:15

Und warum legst Du dann nicht einfach eine leere robots.txt ab oder eine, in der Du nichts sperrst und rufst die dann in den WMT auf?

Code: Alles auswählen

User-agent: *
Disallow:

1234d1
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 21.10.2009, 09:14

Beitrag von 1234d1 » 11.07.2012, 09:24

Ich frage ja nicht nach der Lösung sondern danach, ob es hier jemanden gibt der schon einmal ähnlichen Fall hatte oder nachvollziehen kann warum Google bei diesem Verhalten URLs blockiert. Denn ansonsten dürfte es sich hierbau ja um einen Crawler Fehler oder Webmaster Tools Fehler handeln.

Eine robots.txt mit obigen Inhalt hatte ich nun bereits eingefügt.

imwebsein
PostRank 9
PostRank 9
Beiträge: 1979
Registriert: 25.09.2011, 23:44

Beitrag von imwebsein » 11.07.2012, 09:34

Kann es sein das Google durch die Weiterleitung nur die Startseite als Indeseite akzeptiert hat? Dann müssten aber alle anderen Seiten raus sein.

Was meinst du genau mit blockiert? Einfach nicht erkannt? Dann wäre die Idee, dass diese nicht von der Hauptseite zu erreichen sind, die ja index auch sein soll.
[url=httpss://imwebsein.de]imwebsein GmbH [/url] & SEO Portal das Onlinemagazin für Suchmaschinenoptimierung

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 11.07.2012, 09:40

1234d1 hat geschrieben:Ich frage ja nicht nach der Lösung sondern danach, ob es hier jemanden gibt der schon einmal ähnlichen Fall hatte oder nachvollziehen kann warum Google bei diesem Verhalten URLs blockiert. Denn ansonsten dürfte es sich hierbau ja um einen Crawler Fehler oder Webmaster Tools Fehler handeln.
Na ich kann mir beim besten Willen nicht vorstellen, dass es noch einen zweiten Webmaster geben sollte, der eine nicht vorhandene robots.txt auf die Startseite umleitet und sich anschließend wundert, warum der Googlebot auch nach Entfernung der Weiterleitung noch zu Fehlern neigte.

Crawler Fehler? Sollte der Bot von sich aus erkennen, dass er dieser Weiterleitung nicht folgen sollte, weil es sich nur um Chaos handelt?

1234d1
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 21.10.2009, 09:14

Beitrag von 1234d1 » 11.07.2012, 09:50

Hi,
Kann es sein das Google durch die Weiterleitung nur die Startseite als Indeseite akzeptiert hat? Dann müssten aber alle anderen Seiten raus sein.
Die anderen Seiten sind aber soweit alle im Index. In den Webmaster Tools steht neben der Robots.txt URL unter blockierte URLs als Info "Google tried to crawl these URLs in the last 90 days, but was blocked by robots.txt.".
Was meinst du genau mit blockiert? Einfach nicht erkannt? Dann wäre die Idee, dass diese nicht von der Hauptseite zu erreichen sind, die ja index auch sein soll.
Über die Hauptseite sind die Kategorien und darüber hinaus jede weitere Inhaltsseite normal verlinkt erreichbar.
Crawler Fehler? Sollte der Bot von sich aus erkennen, dass er dieser Weiterleitung nicht folgen sollte, weil es sich nur um Chaos handelt?
Ich sage nichts zu der Weiterleitung. Mir geht es darum, dass der Crawler scheinbar aus einer HTML Seite Disallow Anweisungen gezogen hat, die nicht vorhanden sind. Ich hätte gedacht, dass hier zumindest eine korrekte Syntax und eventuell auch Filetype .txt als Grundlage herangezogen wird.

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 11.07.2012, 10:05

Ja, Syntax und Filetype sollte er erkennen, doch ich vermute mal, gerade weil er die Syntax und den Filetype nicht erkannt hat, kam es zu dieser Reaktion. Wenn etwas nicht stimmt, dann erst einmal aus Sicherheitsgründen nicht freigegebene Seiten ausschließen.
Scripts und Plugins für Cookie-Hinweise

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 11.07.2012, 12:45

Und die einfachere Möglichkeit wäre gewesen, in den WMT einfach nachzusehen, was Google denn als robots.txt erkannt hat. Die Kopie der erfassten Version wird ja nicht ohne Grund dort angezeigt.

zudem...
bei einem Webprojekt wurde durch ein CMS beim Aufruf von example.com/robots.txt per 200 Statuscode auf die Startseite geleitet
Entweder es wurde an die Startseite geleitet, dann kann es kein 200 gewesen sein oder es war ein 200, dann kann es keine Weiterleitung gewesen sein. Beides ist nicht möglich.

Ich denke mal, die Startseite wurde einfach angezeigt (unter der URL der robots.txt) und ein 200 gesendet. Somit war die robots.txt für Google vorhanden, nur eben mit lauter falschen Inhalten. Dann passt auch, dass Google meldet sie gefunden zu haben. Und genau hier steht nun auch die Kopie in den WMT, was er gefunden hat.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag