Thomas B hat geschrieben:Kann man das eigentlich auch so machen:
User-agent: *
Disallow: /
Allow: example.html
So dass erlaubt wird, die explizit ausgewiesene Seite zu spidern?
Das funktioniert aus zwei Gründen nicht:
1. URL-Pfade beginnen
immer mit einem Schrägstrich, deine Angabe example.html wird dementsprechend nie zutreffen.
2. Die robots.txt wird standardmäßig von oben nach unten abgearbeitet, der erste Treffer wirkt. Dein
Disallow: / passt auf alles, nachfolgende Allow:- und Disallow:-Zeilen werden nicht mehr beachtet.
Was du unterm Strich haben möchtest, ist dieses:
User-agent: *
Allow: /example.html
Disallow: /
Damit wird /example.com ausgelesen und alles andere gesperrt.
Zu Punkt 2 ist allerdings anzumerken, dass Google sich nicht an die althergebrachte Methode hält, sondern stattdessen zuerst alle Allow:-Zeilen auswertet, anschließend alle Disallow:-Zeilen. Mit deiner Reihenfolge würde es bei Google also doch so laufen, wie du möchtest; nichtsdestotrotz solltest du dich an den Standard halten.
Die Behauptung, Google würde Allow: nur mit / gelten lassen, ist übrigens falsch (und macht auch keinen Sinn). Nicht nur ich habe die Kombination Allow abc, Disallow abcde im Einsatz – abc ist im Index, abcde nicht, wie gewünscht –, sondern auch noch
andere.
Gleiches gilt für die Aussage, „google soll sich wohl nur daran halten, wenn man "User-agent: Googlebot"“ nutzt. Ist auch nicht richtig.