robots.txt Disallow vs. noindex

Beitrag von **Synonym** » 08.03.2011, 09:32

@Melegrian
Lese bitte bei Deinem Link mal den Absatz hier:

Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden.

Wenn Google einem externen Verweis folgt und somit auf Deine Seite kommt, dann wurde in dem Moment die robots.txt gar nicht beachtet. Die wird erst bei den direkten oder internen Aufrufen berücksichtigt.

Externer Link auf Seite 2 -> könnte aufgenommen werden -> interner Link zu 3, 4 und 5. Wird nicht aufgenommen, da blockiert.

und nun den Hinweis darunter:

Sollen die Inhalte einer Seite nie dem Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, muss ein "noindex"-Meta-Tag verwendet werden. Beim Crawlen der Seite erkennt der Googlebot das "noindex"-Meta-Tag und schließt die URL aus dem Index aus.

Dass die wieder verschwinden ist teilweise richtig, aber eben nur teilweise. Bei jedem neuen Besuch über externe Links werden sie wieder aufgenommen um dann irgendwann wieder entfernt zu werden. Also warum dieses Hin und Her, wenn man gleich noindex nehmen kann. Zudem ist es ja noch immer der Punkt mit den internen Verlinkungen und externen Backlinks.

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Melegrian** » 08.03.2011, 10:01

Na gut, um es einfacher auszudrücken. Der Gogelbot wird jedem Link folgen, den er findet und wird versuchen den Inhalt einer Datei zu crawlen, insofern diese kein Meta-Tag mit noindex enthält. Somit wird die URL der Seite erst einmal indexiert. Beim nächsten Besuch stellt der Bot dann fest, dass die Seite über die robots.txt gesperrt ist und wird diese nicht mehr crawlen. Das führt dazu, dass die URL der Seite zwar erst einmal für vier bis acht Wochen in den Ergebnissen auftaucht, aber ohne Description dort erscheint und danach wieder aus dem Index verschwindet.

Die Kritik ist berechtig, wenn es sich um einen Seite handelt, die extern verlinkt wurde, dann könnte das zu einem ständigen Hin und Her führen, auf das man durch einen Meta-Tag mit noindex verzichten könnte. Bei meinen Seiten bin ich mir relativ sicher, dass die "Blätterseiten" keiner verlinken würde, somit ergab sich dieses Problem für mich zumindest bisher noch nicht. Es könnte aber in anderen Fällen zu einem Problem werden.

Beitrag von **Synonym** » 08.03.2011, 10:41

Jep, das siehst Du richtig und so kann man es auch sagen

Auf die robots.txt würde ich mich nie verlassen. Ich nutze die nur für Dinge, bei denen Meta nicht möglich oder zu umständlich ist.

Es spricht aber nichts dagegen, sowohl disallow als auch noindex zu nehmen. Dann kommen die auch nicht in den Index. Wenn die aber schon drinnen sind, dann dauert es aber sehr viel länger bis die wieder verschwinden.

Disallow würde verhindern, dass Google überhaupt intern darauf zugreift und noindex, falls Google "von außen" kommt.

Meine Meinung:
"noindex" ist besser als "noindex und disallow", das ist aber besser als nur "disallow". Weil wie gesagt, es geht ja auch um das Folgen von Links. Wenn Deine Produkte nur von Seite 2 und 3 verlinkt sind, die Seiten aber ein "disallow" haben, dann besucht Google die eigentlich nicht, folglich auch nicht den internen Links zu den Produkten.

Home -> Kategorie (disallow) -> Produkt
: Produkt wird normalerweise nicht gefunden, da Kategorie nicht beachtet wird.

Home -> Kategorie (noindex) -> Produkt
: Produkt wird gefunden, Kategorie kommt nicht in den Index

von **Anzeige von ABAKUS** »

Beitrag von **Anonymous** » 08.03.2011, 12:15

Vielen Dank für eure Antworten. Das hat mir alles sehr weitergeholfen.

Beitrag von **kalonis** » 21.03.2011, 18:20

Hier gehen gerade ein paar Sachen durcheinander: disallow in der robots.txt untersagt dem Googlebot, eine URL aufzurufen und zu crawlen, sagt aber noch nichts darüber, ob sie auch indiziert werden soll. Ob Google sich daran hält, könnt ihr einfach mal in Euren Server-Logs nachschlagen. Meta-Robots-NoIndex wiederum sagt Google, dass es die URL nicht indizieren soll.

Wenn man aber disallow und noindex gemeinsam verwendet, kann es passieren, dass eine URL in den Index aufgenommen wird. Google hat dann in der Regel externe Links auf die URL gefunden und wertet die entsprechenden Ranking-Signale aus (Linkkontext, Ankertext etc.). Der Crawler ruft die Seite selbst aber nicht ab und stößt deshalb auch nie auf die noindex-Angabe. Deshalb weiß er auch nicht, dass er die Seite gar nicht indizieren soll. Sie wird also ohne Description in den Index aufgenommen.

Die Probleme mit der Paginierung würde ich übrigens per "noindex follow" und dem canonical-link auf die URL der ersten Seite lösen.

Beitrag von **Hasenhuf** » 21.03.2011, 18:28

kalonis hat geschrieben:Hier gehen gerade ein paar Sachen durcheinander: disallow in der robots.txt untersagt dem Googlebot, eine URL aufzurufen und zu crawlen, sagt aber noch nichts darüber, ob sie auch indiziert werden soll.

Das erzähle ich hier seit Jahren, fruchtet nicht.

Beitrag von **daniel5959** » 21.03.2011, 20:23

Hallo,

soweit ich weiss sind * bei Disallow: nicht erlaubt, siehe https://de.selfhtml.org/diverses/robots.htm

Bei den Angaben zu Disallow: können Sie Verzeichnispfade und einzelne Dateien mit Pfadangabe angeben. Wildcards wie * oder *.* sind dabei nicht erlaubt.

oder gilt das bei Google nicht mehr?

daniel5959

Beitrag von **Synonym** » 22.03.2011, 08:55

Hier gehen gerade ein paar Sachen durcheinander: disallow in der robots.txt untersagt dem Googlebot, eine URL aufzurufen und zu crawlen, sagt aber noch nichts darüber, ob sie auch indiziert werden soll.

Genau das habe ich geschrieben...

Wenn man aber disallow und noindex gemeinsam verwendet, kann es passieren, dass eine URL in den Index aufgenommen wird. Google hat dann in der Regel externe Links auf die URL gefunden und wertet die entsprechenden Ranking-Signale aus (Linkkontext, Ankertext etc.). Der Crawler ruft die Seite selbst aber nicht ab und stößt deshalb auch nie auf die noindex-Angabe.

Das stimmt nicht.
Findet Google einen Link auf einer externen zur eigenen Seite, dann ruft der das Ziel sehr wohl auf. Muss er auch, sonst weiß er ja gar nicht ob die Seite existiert. In diesem Fall wird die robots.txt aber nicht ausgewertet. Das "noindex" sehr wohl. Fazit -> nicht im Index.
Verwendet man nur "Disallow" und ein externer Link zeigt auf die Seite, dann wird die in den Index aufgenommen, ohne Description.

Die Gefahr bei beidem (noindex, disallow) zusammen ist eigentlich nur, dass das noindex eventuell später gesetzt wurde. Das beachtet Google dann aber nicht, wenn der Zugriff intern erfolgt, da eben "disallow". Erfolgt der Zugriff von extern, dann wird es beachtet.

Aber wie schon vorher geschrieben... ich würde "disallow" gar nicht verwenden, da zu unsicher.

@daniel5959
* sind bei Google erlaubt, z.B:

# Blockieren aller Dateien eines bestimmten Dateityps (z. B. .gif): Verwenden Sie den folgenden Eintrag:

User-agent: Googlebot
Disallow: /*.gif$

https://www.google.com/support/webmaste ... wer=156449

Beitrag von **Melegrian** » 22.03.2011, 11:13

daniel5959 hat geschrieben:oder gilt das bei Google nicht mehr?

Nicht nur bei Google, auch Bing bietet * Wildcard Support für Robots: 1.Robots.txt Directives