robots.txt Disallow vs. noindex

Beitrag von **Anonymous** » 02.03.2011, 09:32

Ich möchte in meinem phpBB Forum paginierte Beiträge von der Indexierung ausschließen. Also die rotmarkeirten: [Gehe zu Seite: 1, 2, 3, 4, 5 ]

Die URLs dieser Seiten enden alle nach folgendem Schema:

-s20.html (Seite 2)
-s30.html (Seite 3)
-s40.html (Seite 4)
-s50.html (Seite 5)
usw.

Könnte ich mit:

Disallow: /-s*.html$

die Indexierung dieser Urls blockieren?

von **Anzeige von ABAKUS** »

Beitrag von **Melegrian** » 02.03.2011, 18:26

Richtig sollte es meiner Meinung nach so ausschauen:

Disallow: /*-s

Bei sprechenden URIs könntest Du dadurch aber mehr ausschließen als eigentlich vorgesehen, weil die Zeichenfolge zu kurz ist.

Wenn es sich um eine überschaubare Anzahl handelt, sollte es so möglich sein:

Disallow: /*s10.html$
Disallow: /*s20.html$
Disallow: /*s30.html$
Disallow: /*s40.html$
Disallow: /*s50.html$

Jetzt lese ich gerade, das man das Sternchen als Platzhalter verwenden kann.

https://www.google.com/support/webmaste ... wer=156449

Wie in Deinem Beispiel sollte es möglich sein:

Disallow: /-s*.html$

Womit Du aber auch sprechende URIs ausschließen würdest, wenn diese zum Beispiel auf eine Datei wie /ein-super-auto.html verweisen würden und in diesem Fall wäre

Disallow: /*s10.html$

die sichere Variante.

Beitrag von **fiacyberz** » 03.03.2011, 09:11

Statt die per robots zu sperren solltest du sie mit noindex ausstatten. Robots sperrt nur den Aufruf, nicht aber die Indizierung

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **Melegrian** » 04.03.2011, 15:21

fiacyberz hat geschrieben:Robots sperrt nur den Aufruf, nicht aber die Indizierung

Da verwechselst Du wohl die robots.txt mit der htaccess. Ein Aufruf lässt sich zwar mit der htaccess regeln, doch nicht mit der robots.txt, in der lediglich festgehalten wird, welche Bots welche Seiten indexieren dürfen und welche nicht. Wird in der robots.txt nichts eingetragen, dürfen alle Seiten indexiert werden. Werden hingegen bestimmte Seiten in der robots.txt von der Indizierung ausgeschlossen, so lassen diese sich selbstverständlich noch aufrufen, weil die robots.txt keinen Einfluss darauf hat.
Gut, einige Bots sollen die Eintragungen in der robots.txt nicht beachten, doch hier geht es ja um Google im Allgemeinen. Oder sollte ich Deine Antwort falsch verstehen und Du meinst mit Sperrung und der Indizierung, dass die Seiten zwar mit der URI erfasst werden und die jeweiligen URIs indexiert werden, die zu den URIs gehörenden Seiten von den Bots aber nicht gecrawlt werden? Sicherlich, das ist so, wobei die Seiten sicherlich doch gecrawlt werden, nur deren Inhalt nicht indexiert wird und die URIs von diesen Seiten dann später wieder aus dem Index verschwinden. Doch ist das bei einem Eintrag in den Metas anders?

Beitrag von **Anonymous** » 04.03.2011, 18:41

@all: Vielen Dank für eure Antworten

Melegrian hat geschrieben:Wie in Deinem Beispiel sollte es möglich sein:

Disallow: /-s*.html$

Ich werde das mal ausprobieren. Sprechende URIs habe ich keine.

Beitrag von **chris21** » 04.03.2011, 18:53

Code: Alles auswählen

Disallow&#58; /-s*.html$

sperrt www.example.com/-s10.html

aber nicht

www.example.com/-abcdefg-s10.html

Ich würde daher - wie Melegrian auch -

empfehlen, dass Du

Code: Alles auswählen

/*-s10.html
/*-s20.html
etc.

über deine robots.txt sperrst.

Beitrag von **Anonymous** » 07.03.2011, 11:35

chris21 hat geschrieben:sperrt www.example.com/-s10.html

aber nicht

www.example.com/-abcdefg-s10.html

Stimmt. Ich habe den Crawler-Zugriff mittlereweile in den GWT getestet.

Aber, wie verhält es sich den hiermit?

Code: Alles auswählen

Disallow&#58; /forum/*-s*.html$

Würde dieser Ausruck die Indexierung einer URL, wie

Code: Alles auswählen

/forum/forum24-s1980.html

sperren?

Sind die (internen) Links auf einer Seite, die via robots.txt per Disallow ausgeschlossen wird eigentlich "follow"?

Oder anders formuliert: Hat Disallow die gleiche Wirkung wie:

Code: Alles auswählen

<meta name="robots" content="noindex, follow">

Beitrag von **chris21** » 07.03.2011, 11:54

Disallow /forum/*-s*.html würde /forum/forum24-s1980.html sperren.

Allerdings auch /forum/was-habe-ich-sonntag-gesehen.html

Allgemein würde ich eher vorschlagen, z.B. über php die Metas anzupassen mit

noindex,follow für paginierte Threads (-s10.html etc.)

Interne Links auf Seiten, die per robots.txt ausgeschlossen sind, sind nichtexistent, da die Seite nicht gecrawlt wird.

Daher ist es besser, über den Meta Weg mit noindex,follow zu gehen.

Beitrag von **Anonymous** » 07.03.2011, 15:36

chris21 hat geschrieben:Interne Links auf Seiten, die per robots.txt ausgeschlossen sind, sind nichtexistent, da die Seite nicht gecrawlt wird.

Also kann man mit einem Disallow regelrecht seine interne Verlinkung verschlechtern?

Demnach hätte also ein Disallow in der robots.txt die gleiche Wirkung wie:

Code: Alles auswählen

<meta name="robots" content="noindex, nofollow">

oder?

Beitrag von **Melegrian** » 07.03.2011, 19:35

Ob robots.txt oder meta name="robots", die Datei wie der Tag wurden nach der Aufgabenstellung benannt, welche darin besteht, den Robots Anweisungen zu geben. Das verhält sich ähnlich wie mit Stylesheets, auch die Formateigenschaften können im Header einer Seite oder in einer style.css angegeben werden.

Die interne Verlinkung wird so gewertet oder sollte zumindest so gewertet werden, als würden diese Seiten nicht existieren.

Beitrag von **Anonymous** » 08.03.2011, 08:06

Melegrian hat geschrieben:Die interne Verlinkung wird so gewertet oder sollte zumindest so gewertet werden, als würden diese Seiten nicht existieren.

Was aber wenn zusätzlich zu einem Disallow in der robots.txt die gleiche Seite
einen Follow Meta-Tag im Header hat?

Code: Alles auswählen

<meta name="robots" content="follow">

Beitrag von **Synonym** » 08.03.2011, 08:18

@Melegrian
Beides ist nicht das gleiche, auch wenn beides "robots" heißt.

@kitaro
Wenn Seiten per "robots.txt" auf Disallow stehen, dann heißt das nur, dass sie Suma das entsprechende File / Verzeichnis nicht aufrufen soll. Eine Indexierung ist dennoch möglich, etwa wenn ein Link von außen auf die Seite gesetzt wird.

Meta-Robots "noindex" hingegen heißt, dass Sumas das File zwar aufrufen, aber eben nicht indexieren.

Was aber wenn zusätzlich zu einem Disallow in der robots.txt die gleiche Seite
einen Follow Meta-Tag im Header hat?

Das würde sich sogar etwas widersprechen oder gegenseitig im Weg stehen. Wenn die Suma ein Disallow von der robots.txt bekommt, dann ruft die das File normalerweise erst gar nicht auf. Ruft die es aber nicht auf, dann findet sie auch die Meta-Robots nicht, logisch oder?

robots.txt ist wie ein Museum, dessen Tür zwar offen ist, darüber aber ein Schild steht: "Zutritt verboten"
meta-Robots hingegen haben das Schild darüber nicht, man kommt also in das Museum. Dort steht dann ein Hinweis ala "Berühren oder fotografieren verboten."

Ich würde erst einmal alles per meta-Robots machen, wenn es denn möglich ist. Andere Dinge, wie JS, Bilderverzeichnisse, PDFs etc kann man per robots.txt behandeln, da man an die per meta nicht so leicht rankommt.

Willst Du also, dass die -s20.html genauso behandelt werden wie alle anderen Seiten auch, aber nicht in den Index kommen, dann setze meta-Robots = noindex und lass alles andere weg.

Beitrag von **Anonymous** » 08.03.2011, 08:45

Ich denke ich habe es so weit verstanden. Zum Verständnis nochmal ein Beispiel:

Ich habe einen Online-Shop der in der Kategorie "Männerbrillen" 2249 Brillen verteilt auf 75 Seiten aufgelistet hat. Natürlich will ich, dass jedes einzelne dieser Produkte in den Index kommt. Aber ich möchte nicht, dass die Brillen Seite 2 bis 75 (der Kategorie) in den Index kommen. Also benutze ich folglich
den noindex, follow Tag auf diesen paginierten Seiten:

Code: Alles auswählen

<meta name="robots" content="noindex, follow">

Die Urls der paginierten Seiten sehen in etwa so aus:

Code: Alles auswählen

maennerbrillen.html?SortAsc=1&Site=2#ProductOverviewAnchor

Was jedoch, wenn ich gleichzeitg in der robots.txt

Code: Alles auswählen

Disallow&#58; /*?

verwende? Dann werden die paginierten Seiten ja wiederum doch nicht gecrawlt und die Links auf die einzelnen Produkte ja auch nicht gefunden. Folglich verschlechtert sich meine interne Verlinkung und damit die Chance das alle meiner Produktseiten im Index aufgenommen werden.

Mir ist jedoch auch wichtig, den Index sauber von Urls mit Parametern zu haben.

Beitrag von **Synonym** » 08.03.2011, 09:19

Seite 1 soll in den Index, Seiten 2-75 nicht.

Seite 1:
Meta-Robots: index, follow

Seite 2-75:
Meta-Robots: noindex, follow

"Was jedoch, wenn ich gleichzeitg in der robots.txt ".....
Das kommt nun drauf an. Ist so erst mal wieder ein Widerspruch, aber wie oben zuvor.

Wenn die robots.txt greift, und es keine externen Links auf die Seiten 2-75 gibt, dann werden die Seiten nicht aufgerufen. Folglich ist es auch egal, was auf den Seiten drauf / drin ist, es wird nicht "gefunden".

Gibt es externe Links auf die Seiten, dann wäre trotz robots.txt eine Indexierung möglich. Das Meta-Robots "noindex" verhindert das dann aber. Auch werden alle internen Links zu weiteren Seitennummern nicht beachtet, da die ja wieder per robots.txt "verboten" sind.

"Mir ist jedoch auch wichtig, den Index sauber von Urls mit Parametern zu haben."
Dann setze doch einfach alles was einen Parameter hat auf "noindex".

Ich sehe hier bei Deinen Beispielen keinen Grund für eine robots.txt... Über die macht man eigentlich wirklich nur mehr kaputt oder hat es eben genau vor (z.B. Outbound-Scripte).

Beitrag von **Melegrian** » 08.03.2011, 09:24

Synonym hat geschrieben:Wenn Seiten per "robots.txt" auf Disallow stehen, dann heißt das nur, dass sie Suma das entsprechende File / Verzeichnis nicht aufrufen soll. Eine Indexierung ist dennoch möglich, etwa wenn ein Link von außen auf die Seite gesetzt wird.

Das hört sich ja alles plausibel an und das möchte ich auch nicht bestreiten. Alles was ich weiß, dass habe ich mir nur angelesen oder erprobt und da mögen sich Fehler im Verständnis eingeschlichen haben. Nur wenn ich dann so etwas lese, dann interpretiere ich das nicht so, dass eine Suma das entsprechende Verzeichnis oder die entsprechende Datei nur nicht aufruft und crawlt, sondern diese auch nicht indexiert:

https://www.google.com/support/webmaste ... wer=156449

...Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert,...

Zwar heißt es dann weiterhin,

...möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website ... in den Google-Suchergebnissen angezeigt werden.

Doch das schrieb ich ja weiter oben bereits, dass in diesem Fall nur die URLs und Links bei einer Seitenabfrage vorübergehend in den Suchergebnissen erscheinen,

...nur deren Inhalt nicht indexiert wird und die URIs von diesen Seiten dann später wieder aus dem Index verschwinden.

Und alles was ich da bisher über die Jahre wahrnahm, das verhielt sich auch so. Bei jeder Abfrage site:www… erschienen als letzte Ergebnisse vorübergehend einige URLs von Seiten, die eigentlich durch die robots.txt gesperrt waren. Google fand die halt irgendwie und nahm deren URL als Link kurzeitig auf. Doch alle verschwanden mit der Zeit von alleine wieder aus dem Index, weil die zugehörigen Dateien nicht gecrawlt bzw. indexiert wurden.