Seite 1 von 1

Wird der robot.txt ignoriert?

Verfasst: 02.01.2012, 17:29
von Lika
Hallo zusammen,

bei einer Website habe ich heute gesehen, dass Seiten indexiert wurden, die eigentlich durch den robot.txt gesperrt sind.

Es handelt sich dabei um Seiten, die noch in der Erstellungsphase sind.

Habt ihr das Problem auch schonmal gehabt und wenn ja, wie habt ihr das behoben? Hilft hier der Canocial-Tag weiter?

LG

Lika

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 02.01.2012, 17:33
von nicolas
Ist mir noch nie passiert, vielleicht hast du ein Fehler in der robot.txt?

Sonst kannst du es mit dem Robot Meta Tag probieren.

Verfasst: 02.01.2012, 17:35
von om-labs
ist mir auch schon untergekommen.
Zum Beispiel, das die Startseite laut robots.txt gesperrt ist, trotzdem im Index mit Rankings. Keine guten Rankings aber mit Rankings.

Was deinen Fall angeht. Canonical kann nicht schaden.

Verfasst: 02.01.2012, 17:56
von Lika
@nicolas: nein, der robot.txt ist in Ordnung. Daran kanns leider nicht liegen

Google ist schon komisch, was :wink:

@om-labs: wie war das nochmal mit dem canonical-tag? Damit kann ich doch auch gleich mehrere Seiten aus einem Ordner sperren, oder muss ich jede einzeln?

Verfasst: 02.01.2012, 18:08
von om-labs
ne, der Canonical ist dazu da um die Orginalseite zu flaggen.

z.B:

beispiel.de/mein-erster-artikel.html
beispiel.de/unterkat1/mein-erster-artikel.html
beispiel.de/cat1/mein-erster-artikel.html
beispiel.de/mein-erster-artikel.html&page1

je nach CMS kann sowas rauskommen, das ein Artikel unter meheren URL's erreichbar ist. Canonical markiert nun den eigentlichen Beitrag als das Original / Ursprung.
z.B.
beispiel.de/mein-erster-artikel.html
mit Canoncial Tag versehen.

die anderen Seiten
beispiel.de/unterkat1/mein-erster-artikel.html
beispiel.de/cat1/mein-erster-artikel.html
beispiel.de/mein-erster-artikel.html&page1

sind dann für User erreichbar, aber Rankings erzielt nur die Seite mit Canonical Tag. Streng genommen stehen die Seiten auf Noindex und sollten aus dem Index fliegen, aber das tut Google nicht immer.

Verfasst: 03.01.2012, 08:08
von Lika
Ok, aber wie sage ich denn dann dem Bot, dass er bestimmte Seiten eben nicht crawlen darf?

Hat einer einen Tipp?

Verfasst: 03.01.2012, 13:01
von Bluemarble
nicht crawlen > Auschluss in der Robots.txt
nicht indexieren > noindex meta tag

wahrscheinlich sind deine Seiten im Index, weil sie extern angelinkt werden. Robots.txt verhindert nicht die Indexierung, sondern nur das Crawlen der Seite.

Aber bitte nicht beides gleichzeitig verwenden! Wenn die Seite in den robots.txt gesperrt ist, dann kann der Googlebot das "noindex" nicht lesen.

Verfasst: 03.01.2012, 13:49
von Mr.Majestyk
Ein Phänomen, welches derzeit seine Kreise zieht. Ich würde auf "noindex" umstellen. Das sollte das Problem beheben.

Verfasst: 05.01.2012, 08:06
von Lika
Guter Vorschlag! Vielen Dank, dann werd ich mich jetzt mal an die Arbeit machen :wink:

Verfasst: 05.01.2012, 09:15
von seorotiker
vielleicht liegt es an der Orthografie? heisst es bei dir robot.txt oder robots.txt

so ein kleines "s" kann viel ausmachen ;-)

Verfasst: 05.01.2012, 09:21
von seorotiker
Mr.Majestyk hat geschrieben:Ein Phänomen, welches derzeit seine Kreise zieht. Ich würde auf "noindex" umstellen. Das sollte das Problem beheben.
die robot.txt wird eben immer ignoriert. Weil die robots.txt nicht ignoriert wird... Manchmal steckt der Teufel im Detail...

Verfasst: 05.01.2012, 10:18
von Dragobert
Kann auch an Adsense liegen. Habe hier gerade 2 neue Projekte im Aufbau,
sind definitiv nirgends verlinkt gewesen, nicht einmal auf meiner Hauptdomain.

Aber Adsense war eingebaut. Dass die (handvoll) Seiten schon in Index drin sind
habe ich nur zufällig entdeckt: In der Adsense-Oberfäche, als ich die Berichte
von der Hauptdomain sehen wollte, sah ich plötzlich auch die Anderen Projekte.

Kurz mal site:blabla.de eingegeben, tatsächlich. Nur einen Tag VOR Adesnse, nix.
Mit einem anderen Projekt das Gleiche getestet - > ruckzuck waren die Seiten im Index drin.

Verfasst: 06.01.2012, 10:38
von luzie
Um das klarzustellen:

robots.txt wird NIE ignoriert

Verfasst: 06.01.2012, 11:54
von seorotiker
luzie hat geschrieben:Um das klarzustellen:

robots.txt wird NIE ignoriert

GENAU! Aber die robot.txt :wink:

Manchmal lohnt es sich ein wenig korinthenkackerisch auf Kleinigkeiten zu achten, Vor allen Dingen bei Konfigurationsdateien! Sprecht ihr nun von
robot.txt oder von
robots.txt ?
Denkt an das Plural-s!!!