wieder mal eine Frage zum DC. Ich habe zwar im Search einige statements dazu gefunden, aber so richtig sicher bin ich mir noch nicht.
Mich würde Eure Einschätzung interessieren:
Kann ich mit einer robots.txt SICHER vermeiden, dass irgendwelche SUMA robots auf meiner Seite wühlen? Ich habe auf der domain Duplicate Content und möchte mit der Seite nicht in den großen Suchmaschinen auftauchen und vor allem auch nicht wegen dem DC abgestraft werden.
Oder gibt es da das Risiko, dass ich durch irgendwelche direkten links in den content eben doch gespidert werde?
mit dem * als wildcard kann es funktionieren, aber im robots.txt standard sind keinerlei wildcards definiert... also würde dein "dissallow *" u.U. sogar die gesamte Webseite für spider freigeben, naja bis auf die Datei mit dem dateinamen "*"
Bei der Spideraufzählung kann man den * als Platzhalter für alle vorher nicht genannten spider verwenden
aber auch über robots.txt gesperrte Dateien können im Index auftauchen, dazu reicht bereits wenn der spider einen Link auf die Seite findet... er darf die Seite dann nicht spidern, aber er kennt sie anhand der URL im Link, und nimmt sie ggf. nur als URL in den Index auf... also ohne Beschreibung und Cache, denn gesehen hat er die Seite ja nie... so dürfte es da auch keinen DC geben, da er den Content der Seite nicht kennt....