robots.txt falsch erstellt?

Beitrag von **NoNaMe_909** » 08.12.2013, 01:21

Es geht um folgende Zeile:
User-agent: *
Disallow: /search/
Disallow: /*archive.html
Allow: /

Aber google löscht aus Index die Archiv Seiten nicht:
https://www.google.de/search?q=site%3Aw ... e&ie=UTF-8

Hat jemand Ideen?

von **Anzeige von ABAKUS** »

Beitrag von **jabbadu** » 08.12.2013, 09:25

wenn die einmal drin sind hilft oftmals nur manuelles löschen.
Webmaster Tools -> Google Index - URLs entfernen

Beitrag von **Thomas B.** » 08.12.2013, 10:58

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html
Allow&#58; /

Ein Bot macht das was du ihm sagst und mit der letzten Zeile hebst du die disallow Regeln wieder auf. Allow selber solltest du auch nicht nutzen da es nicht von allen Bots verstanden wird, genauso wie *.

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html$

von **Anzeige von ABAKUS** »

Beitrag von **Waelti** » 08.12.2013, 11:28

Nun, die robots.txt dient dazu, dass Seiten gecrawlt (oder nicht gecrawlt) werden. (Falls sich der jeweilige Bot an die Angaben hält.)

Im Index befindliche Seiten werden durch das "nicht crawlen" *nicht* aus dem Index entfernt.
Ich habe teilweise in bestimmten Kategorien im Header folgendes drin:

<meta name='robots' content='noindex,follow'/>

Funzt soweit, manchmal dauert das ein bisschen. Teilweise mehrere Wochen bis bereits indexierte Seiten wieder aus dem Index entfernt werden.

Beitrag von **Waelti** » 08.12.2013, 11:34

uups, noch ein Nachtrag:

Wenn der Crawler per robots.txt ausgesperrt ist, dann wird er den "Noindex" Header nicht oder sehr lange nicht entdecken...

Beitrag von **Kristian** » 08.12.2013, 13:04

Thomas B. hat geschrieben:
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html
Allow&#58; /
Ein Bot macht das was du ihm sagst und mit der letzten Zeile hebst du die disallow Regeln wieder auf. Allow selber solltest du auch nicht nutzen da es nicht von allen Bots verstanden wird, genauso wie *.
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html$

Ich schätze deine Meinung, wir kommen aus dem gleichen Lager.
Aber, lies bei G. nochmal nach was die wirklich machen.
Die Rules für die robots.txt sind recht aufgeweicht, G. hält sich dran, es sei denn, die Seite ist irgendwo verlinkt.
Guckst du: https://support.google.com/webmasters/a ... 6449?hl=de
Der Titel ist noch der alte, das Verhalten aber eindeutig nicht.
Klar, Allow gibt es nicht und und und...
Hilft aber nichts, "Robots Exclusion Standard" ist halt nur eine Idee, die von Leuten wie dir und mir hochgehalten wird.
Die Wirklichkeit ist anders. Ein metatag robots noindex wirkt noch so, wie der Eintrag in der robots.txt wirken sollte.
Ach so, ich rede jetzt nur von G,. den Rest kann man aber auch....

Beitrag von **Waelti** » 08.12.2013, 13:53

@kristian

nu: metatag "noindex" und das disallow in robots.txt können die gleiche Wirkung haben: Seiten landen nicht im index.

robots.txt kann aber *nicht* zum Entfernen von Seiten aus dem Index verwendet werden. Der Metatag "noindex" schon. Und es geht ja um das Entfernen von Seiten aus dem Index und nicht um das "nicht aufnehmen in den Index"?

Beitrag von **Kristian** » 08.12.2013, 13:58

Waelti hat geschrieben:@kristian

nu: metatag "noindex" und das disallow in robots.txt können die gleiche Wirkung haben: Seiten landen nicht im index.

robots.txt kann aber *nicht* zum Entfernen von Seiten aus dem Index verwendet werden. Der Metatag "noindex" schon. Und es geht ja um das Entfernen von Seiten aus dem Index und nicht um das "nicht aufnehmen in den Index"?

Ich stimme dir voll und ganz zu.
"können die gleich Wirkung haben", wenn man es vorher macht und die Seiten nicht (von extern) verlinkt werden.
Zum Entfernen hilft der Metatag, ein Eintrag in der robots.txt bremst da eher.
(Die Annahme hier, dass man beides macht.)
Mein Post, mehr oder minder an Thomas gerichtet, hatte die Zielsetzung ihn "zu updaten".

Beitrag von **Kristian** » 08.12.2013, 14:09

Mal generell zu dem Thema, auch wenn es an der Zielsetzung von NoNaMe_909 vorbei geht.
Ich würde mir wünschen, dass sich mehr Leute Ihre Seiten aus Sicht eines Bots ansehen.
Ich glaube ich schreibe mal nen lustigen Schwank aus dem Leben eines solchen Bots und verlinke das hier wenn's fertig ist

Beitrag von **NoNaMe_909** » 08.12.2013, 20:20

Thomas B. hat geschrieben:
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html
Allow&#58; /
Ein Bot macht das was du ihm sagst und mit der letzten Zeile hebst du die disallow Regeln wieder auf. Allow selber solltest du auch nicht nutzen da es nicht von allen Bots verstanden wird, genauso wie *.
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html$

Stimmt, Allow macht hier keinen Sinn, das habe ich übersehen und nun gelöscht, danke.

Beitrag von **NoNaMe_909** » 08.12.2013, 20:22

jabbadu hat geschrieben:wenn die einmal drin sind hilft oftmals nur manuelles löschen.
Webmaster Tools -> Google Index - URLs entfernen

Danke, gute Idee!

Beitrag von **luzie** » 09.12.2013, 10:02

Kristian hat geschrieben: ... "Robots Exclusion Standard" ist halt nur eine Idee, die von Leuten wie dir und mir hochgehalten wird.

Vergiss das GANZ schnell. Robots Exclusion Standard ist der Grundlagenvertrag zwischen Websites und Suchmaschinen und Google hält sich sklavisch an diesen Standard. Täten sie es nicht, wäre ihr Geschäft ganz schnell nur noch Makulatur, unwillige Website-Betreiber könnten sie wegen Urheberrechtsverletzung sofort in Grund und Boden klagen. Das können sie nur deshalb nicht, weil Robots Exclusion Standard jederzeit den Ausstieg aus der Suchmaschine erlaubt.

Beitrag von **Kristian** » 09.12.2013, 11:25

luzie hat geschrieben:
Kristian hat geschrieben: ... "Robots Exclusion Standard" ist halt nur eine Idee, die von Leuten wie dir und mir hochgehalten wird.
Vergiss das GANZ schnell. Robots Exclusion Standard ist der Grundlagenvertrag zwischen Websites und Suchmaschinen und Google hält sich sklavisch an diesen Standard. Täten sie es nicht, wäre ihr Geschäft ganz schnell nur noch Makulatur, unwillige Website-Betreiber könnten sie wegen Urheberrechtsverletzung sofort in Grund und Boden klagen. Das können sie nur deshalb nicht, weil Robots Exclusion Standard jederzeit den Ausstieg aus der Suchmaschine erlaubt.

OK, das habe ich zu hart formuliert, aber..

Den Text kennst du aus den Serps?
"Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar."

Zitat von Google:
"Zwar werden die Inhalte der Seiten, die durch die Datei "robots.txt" blockiert sind, weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project (www.dmoz.org) in den Google-Suchergebnissen angezeigt werden."

Genau das meine ich mit aufweichen.
Den Ausstieg aus der Suchmaschine schafft man derzeit nur mit dem MetaTag noindex.

Beitrag von **Thomas B.** » 09.12.2013, 23:51

Kristian hat geschrieben:...
Ich schätze deine Meinung, wir kommen aus dem gleichen Lager.
...

Wie meinst du das? Aus welchem Lager? Aber Danke für die Info.

Beitrag von **luzie** » 10.12.2013, 11:24

Kristian hat geschrieben:"Zwar werden die Inhalte der Seiten, die durch die Datei "robots.txt" blockiert sind, weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden.

Ja, ich weiss, ich finde das auch lästig - aber es steht immer noch in vollem Einklang mit dem Standard - wenn man's durchdenkt.