Seite 1 von 1
Wird der robot.txt ignoriert?
Verfasst: 02.01.2012, 17:29
von Lika
Hallo zusammen,
bei einer Website habe ich heute gesehen, dass Seiten indexiert wurden, die eigentlich durch den robot.txt gesperrt sind.
Es handelt sich dabei um Seiten, die noch in der Erstellungsphase sind.
Habt ihr das Problem auch schonmal gehabt und wenn ja, wie habt ihr das behoben? Hilft hier der Canocial-Tag weiter?
LG
Lika
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 02.01.2012, 17:33
von nicolas
Ist mir noch nie passiert, vielleicht hast du ein Fehler in der robot.txt?
Sonst kannst du es mit dem Robot Meta Tag probieren.
Verfasst: 02.01.2012, 17:35
von om-labs
ist mir auch schon untergekommen.
Zum Beispiel, das die Startseite laut robots.txt gesperrt ist, trotzdem im Index mit Rankings. Keine guten Rankings aber mit Rankings.
Was deinen Fall angeht. Canonical kann nicht schaden.
Verfasst: 02.01.2012, 17:56
von Lika
@nicolas: nein, der robot.txt ist in Ordnung. Daran kanns leider nicht liegen
Google ist schon komisch, was
@om-labs: wie war das nochmal mit dem canonical-tag? Damit kann ich doch auch gleich mehrere Seiten aus einem Ordner sperren, oder muss ich jede einzeln?
Verfasst: 02.01.2012, 18:08
von om-labs
ne, der Canonical ist dazu da um die Orginalseite zu flaggen.
z.B:
beispiel.de/mein-erster-artikel.html
beispiel.de/unterkat1/mein-erster-artikel.html
beispiel.de/cat1/mein-erster-artikel.html
beispiel.de/mein-erster-artikel.html&page1
je nach CMS kann sowas rauskommen, das ein Artikel unter meheren URL's erreichbar ist. Canonical markiert nun den eigentlichen Beitrag als das Original / Ursprung.
z.B.
beispiel.de/mein-erster-artikel.html
mit Canoncial Tag versehen.
die anderen Seiten
beispiel.de/unterkat1/mein-erster-artikel.html
beispiel.de/cat1/mein-erster-artikel.html
beispiel.de/mein-erster-artikel.html&page1
sind dann für User erreichbar, aber Rankings erzielt nur die Seite mit Canonical Tag. Streng genommen stehen die Seiten auf Noindex und sollten aus dem Index fliegen, aber das tut Google nicht immer.
Verfasst: 03.01.2012, 08:08
von Lika
Ok, aber wie sage ich denn dann dem Bot, dass er bestimmte Seiten eben nicht crawlen darf?
Hat einer einen Tipp?
Verfasst: 03.01.2012, 13:01
von Bluemarble
nicht crawlen > Auschluss in der Robots.txt
nicht indexieren > noindex meta tag
wahrscheinlich sind deine Seiten im Index, weil sie extern angelinkt werden. Robots.txt verhindert nicht die Indexierung, sondern nur das Crawlen der Seite.
Aber bitte nicht beides gleichzeitig verwenden! Wenn die Seite in den robots.txt gesperrt ist, dann kann der Googlebot das "noindex" nicht lesen.
Verfasst: 03.01.2012, 13:49
von Mr.Majestyk
Ein Phänomen, welches derzeit seine Kreise zieht. Ich würde auf "noindex" umstellen. Das sollte das Problem beheben.
Verfasst: 05.01.2012, 08:06
von Lika
Guter Vorschlag! Vielen Dank, dann werd ich mich jetzt mal an die Arbeit machen

Verfasst: 05.01.2012, 09:15
von seorotiker
vielleicht liegt es an der Orthografie? heisst es bei dir
robot.txt oder
robots.txt
so ein kleines "s" kann viel ausmachen

Verfasst: 05.01.2012, 09:21
von seorotiker
Mr.Majestyk hat geschrieben:Ein Phänomen, welches derzeit seine Kreise zieht. Ich würde auf "noindex" umstellen. Das sollte das Problem beheben.
die
robot.txt wird eben immer ignoriert. Weil die
robots.txt nicht ignoriert wird... Manchmal steckt der Teufel im Detail...
Verfasst: 05.01.2012, 10:18
von Dragobert
Kann auch an Adsense liegen. Habe hier gerade 2 neue Projekte im Aufbau,
sind definitiv nirgends verlinkt gewesen, nicht einmal auf meiner Hauptdomain.
Aber Adsense war eingebaut. Dass die (handvoll) Seiten schon in Index drin sind
habe ich nur zufällig entdeckt: In der Adsense-Oberfäche, als ich die Berichte
von der Hauptdomain sehen wollte, sah ich plötzlich auch die Anderen Projekte.
Kurz mal site:blabla.de eingegeben, tatsächlich. Nur einen Tag VOR Adesnse, nix.
Mit einem anderen Projekt das Gleiche getestet - > ruckzuck waren die Seiten im Index drin.
Verfasst: 06.01.2012, 10:38
von luzie
Um das klarzustellen:
robots.txt wird NIE ignoriert
Verfasst: 06.01.2012, 11:54
von seorotiker
luzie hat geschrieben:Um das klarzustellen:
robots.txt wird NIE ignoriert
GENAU! Aber die
robot.txt
Manchmal lohnt es sich ein wenig korinthenkackerisch auf Kleinigkeiten zu achten, Vor allen Dingen bei Konfigurationsdateien! Sprecht ihr nun von
robot.txt oder von
robots.txt ?
Denkt an das
Plural-s!!!