Ich würde gerne die Robots.txt bei mir anpassen. Ziel ist es, dass keinerlei PDF indexiert wird von Google und das keinerlei Druckversion indexiert werden. Ersteres bekomme ich ja mit Disallow: /*.pdf$ hin. Aber wie schaffe ich es, dass in jedem Verzeichnis alles gesperrt wird, dass auf drucken.html endet? Beispiele: verzeichnis1/drucken.html, verzeichnis2/drucken.html etc...
Danke. Ich hatte daran auch schon gedacht. Aber ich fand das nicht in den Standarts von Google und will nicht riskieren, dass dadurch noch mehr nicht indexiert wird. Hat jemand das hier schonmal probiert?
Wenn der Googlebot das kann, dann ist das eine nicht dokumentierte Eigenart, denn bei Google steht davon nichts, ganz im Gegenteil wird dort empfohlen, „The entry should begin with a forward slash (/).“
Und allgemein, d.h. für alle Bots gesprochen, wird mit Disallow: drucken.html definitiv gar nichts ausgeschlossen, weil URL-Pfade immer mit einem Schrägstrich beginnen, drucken.html entsprechend dem robots.txt-Standard also auf nichts zutrifft.
Korrekt wäre zumindest im Falle Googlebot nur Folgendes, um sämtliche drucken.html-Seiten des Servers auszuschließen: