Wird der robot.txt ignoriert?

Beitrag von **Lika** » 02.01.2012, 17:29

Hallo zusammen,

bei einer Website habe ich heute gesehen, dass Seiten indexiert wurden, die eigentlich durch den robot.txt gesperrt sind.

Es handelt sich dabei um Seiten, die noch in der Erstellungsphase sind.

Habt ihr das Problem auch schonmal gehabt und wenn ja, wie habt ihr das behoben? Hilft hier der Canocial-Tag weiter?

LG

Lika

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **nicolas** » 02.01.2012, 17:33

Ist mir noch nie passiert, vielleicht hast du ein Fehler in der robot.txt?

Sonst kannst du es mit dem Robot Meta Tag probieren.

Beitrag von **om-labs** » 02.01.2012, 17:35

ist mir auch schon untergekommen.
Zum Beispiel, das die Startseite laut robots.txt gesperrt ist, trotzdem im Index mit Rankings. Keine guten Rankings aber mit Rankings.

Was deinen Fall angeht. Canonical kann nicht schaden.

Beitrag von **Lika** » 02.01.2012, 17:56

@nicolas: nein, der robot.txt ist in Ordnung. Daran kanns leider nicht liegen

Google ist schon komisch, was

@om-labs: wie war das nochmal mit dem canonical-tag? Damit kann ich doch auch gleich mehrere Seiten aus einem Ordner sperren, oder muss ich jede einzeln?

Beitrag von **om-labs** » 02.01.2012, 18:08

ne, der Canonical ist dazu da um die Orginalseite zu flaggen.

z.B:

beispiel.de/mein-erster-artikel.html
beispiel.de/unterkat1/mein-erster-artikel.html
beispiel.de/cat1/mein-erster-artikel.html
beispiel.de/mein-erster-artikel.html&page1

je nach CMS kann sowas rauskommen, das ein Artikel unter meheren URL's erreichbar ist. Canonical markiert nun den eigentlichen Beitrag als das Original / Ursprung.
z.B.
beispiel.de/mein-erster-artikel.html
mit Canoncial Tag versehen.

die anderen Seiten
beispiel.de/unterkat1/mein-erster-artikel.html
beispiel.de/cat1/mein-erster-artikel.html
beispiel.de/mein-erster-artikel.html&page1

sind dann für User erreichbar, aber Rankings erzielt nur die Seite mit Canonical Tag. Streng genommen stehen die Seiten auf Noindex und sollten aus dem Index fliegen, aber das tut Google nicht immer.

Beitrag von **Lika** » 03.01.2012, 08:08

Ok, aber wie sage ich denn dann dem Bot, dass er bestimmte Seiten eben nicht crawlen darf?

Hat einer einen Tipp?

Beitrag von **Bluemarble** » 03.01.2012, 13:01

nicht crawlen > Auschluss in der Robots.txt
nicht indexieren > noindex meta tag

wahrscheinlich sind deine Seiten im Index, weil sie extern angelinkt werden. Robots.txt verhindert nicht die Indexierung, sondern nur das Crawlen der Seite.

Aber bitte nicht beides gleichzeitig verwenden! Wenn die Seite in den robots.txt gesperrt ist, dann kann der Googlebot das "noindex" nicht lesen.

Beitrag von **Mr.Majestyk** » 03.01.2012, 13:49

Ein Phänomen, welches derzeit seine Kreise zieht. Ich würde auf "noindex" umstellen. Das sollte das Problem beheben.

Beitrag von **Lika** » 05.01.2012, 08:06

Guter Vorschlag! Vielen Dank, dann werd ich mich jetzt mal an die Arbeit machen

Beitrag von **seorotiker** » 05.01.2012, 09:15

vielleicht liegt es an der Orthografie? heisst es bei dir robot.txt oder robots.txt

so ein kleines "s" kann viel ausmachen

Beitrag von **seorotiker** » 05.01.2012, 09:21

Mr.Majestyk hat geschrieben:Ein Phänomen, welches derzeit seine Kreise zieht. Ich würde auf "noindex" umstellen. Das sollte das Problem beheben.

die robot.txt wird eben immer ignoriert. Weil die robots.txt nicht ignoriert wird... Manchmal steckt der Teufel im Detail...

Beitrag von **Dragobert** » 05.01.2012, 10:18

Kann auch an Adsense liegen. Habe hier gerade 2 neue Projekte im Aufbau,
sind definitiv nirgends verlinkt gewesen, nicht einmal auf meiner Hauptdomain.

Aber Adsense war eingebaut. Dass die (handvoll) Seiten schon in Index drin sind
habe ich nur zufällig entdeckt: In der Adsense-Oberfäche, als ich die Berichte
von der Hauptdomain sehen wollte, sah ich plötzlich auch die Anderen Projekte.

Kurz mal site:blabla.de eingegeben, tatsächlich. Nur einen Tag VOR Adesnse, nix.
Mit einem anderen Projekt das Gleiche getestet - > ruckzuck waren die Seiten im Index drin.

Beitrag von **luzie** » 06.01.2012, 10:38

Um das klarzustellen:

robots.txt wird NIE ignoriert

Beitrag von **seorotiker** » 06.01.2012, 11:54

luzie hat geschrieben:Um das klarzustellen:

robots.txt wird NIE ignoriert

GENAU! Aber die robot.txt

Manchmal lohnt es sich ein wenig korinthenkackerisch auf Kleinigkeiten zu achten, Vor allen Dingen bei Konfigurationsdateien! Sprecht ihr nun von
robot.txt oder von
robots.txt ?
Denkt an das Plural-s!!!