.pdf nicht indexieren lassen

Beitrag von **nanos** » 13.09.2011, 16:23

Hallo,

wie kann man verhindern, dass Google .pdf Dateien in einem Online shop indexiert?

Wir verlinken nun schon nofollow zu dem .pdf und haben die Seiten per Robots.txt gesperrt. Dennoch werden Sie indixiert.

Kann mir da jemand weiterhelfen?

von **Anzeige von ABAKUS** »

Beitrag von **Synonym** » 13.09.2011, 16:28

schon mal mit "noindex" versucht?

Beitrag von o2 » 13.09.2011, 17:08

Oder aber auch die Syntax in der robots.txt geprüft? Die Google Webmaster Tools leisten hier auch ganz gute Dienste.

von **Anzeige von ABAKUS** »

Beitrag von **Synonym** » 13.09.2011, 17:15

mit der Robots.txt kannst Du verhindern, dass Google auf bestimmte Verzeichnisse / Dateien zugreift, z.B. /css/, /templates/ etc. Es garantiert aber nicht, dass die URLs, wenn die denn irgendwo verlinkt sind, nicht im Index erscheinen. Das tun die dann sehr oft, auch wenn ohne Description. Und die PDFs werden ja wohl irgendwo verlinkt sein, sonst macht es ja keinen Sinn - also -> noindex.

Aus der Google-Hilfe:

Wichtig: Selbst wenn Sie mithilfe einer robots.txt-Datei das Crawlen des Contents Ihrer Website durch Spider unterbinden, kann Google den Content auf andere Weise ermitteln und ihn unserem Index hinzufügen. Andere Websites können beispielsweise Links zu ihm aufweisen. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder ein im Open Directory Project angegebener Titel in den Google-Suchergebnissen angezeigt werden. Hinzu kommt, dass die in der robots.txt-Datei festgelegten Anweisungen zwar von allen seriösen Robots unterstützt, aber von einigen eventuell unterschiedlich interpretieren werden. Die Beachtung einer robots.txt-Datei ist jedoch nicht lückenlos durchsetzbar, sodass sie von Spammern und anderen Störenfrieden gelegentlich ignoriert wird. Deshalb empfehlen wir Ihnen, vertrauliche Informationen mit einem Passwort zu schützen (siehe oben).

Verwenden Sie ein "noindex"-Meta-Tag, um die Anzeige bestimmter Contents in den Google-Suchergebnissen zu verhindern. Wird auf einer Seite ein "noindex"-Meta-Tag gefunden, wird die Seite vollständig aus den Google-Suchergebnissen ausgeschlossen, auch wenn von anderen Websites auf sie verwiesen wird.

Sollen die Inhalte einer Seite nie dem Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, muss ein "noindex"-Meta-Tag verwendet werden. Beim Crawlen der Seite erkennt Googlebot das "noindex"-Meta-Tag und schließt die URL aus dem Index aus.

Beitrag von **chris21** » 13.09.2011, 17:16

Ansonsten für die Extremvariante X-Robots verwenden.

Mehr dazu hier: https://code.google.com/web/controlcraw ... a_tag.html (unten auch ein Beispiel mit X-Robots Angaben für pdf Dateien).

Allerdings klingt es schon danach, dass Ihr in Eurer normalen Robots.txt irgendwo die Syntax vermasselt habt.

Beitrag von **Synonym** » 13.09.2011, 17:17

meinte ich doch

Beitrag von **madi** » 13.09.2011, 19:26

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /*.pdf$

Beitrag von **chris21** » 13.09.2011, 20:01

@Ingo:

ich meinte aber den X-Robots HTTP Header, der nur von Google unterstützt wird.

Beitrag von **Synonym** » 14.09.2011, 08:18

@chris
Ich auch

Hatte ja auch nicht geschrieben "meta", sondern nur "noindex" und da gibt es halt mehrere Wege, die nach Rom führen.

Hatte sogar schon genau die gleiche Seite offen, wollte die nur nicht direkt posten. Ein normales "noindex pdf" hätte bei Google genügt und schon der zweite Treffer wäre die Antwort gewesen