Kann robots.txt (disallow *) DC sicher verhindern?

Beitrag von **marama** » 24.02.2006, 12:37

Hi,

wieder mal eine Frage zum DC. Ich habe zwar im Search einige statements dazu gefunden, aber so richtig sicher bin ich mir noch nicht.

Mich würde Eure Einschätzung interessieren:

Kann ich mit einer robots.txt SICHER vermeiden, dass irgendwelche SUMA robots auf meiner Seite wühlen? Ich habe auf der domain Duplicate Content und möchte mit der Seite nicht in den großen Suchmaschinen auftauchen und vor allem auch nicht wegen dem DC abgestraft werden.

Oder gibt es da das Risiko, dass ich durch irgendwelche direkten links in den content eben doch gespidert werde?

von **Anzeige von ABAKUS** »

Beitrag von **luigip** » 24.02.2006, 12:39

Wenn du sehr sicher sein willst, wirst du die Sperrung über die .htaccess vornehmen müssen.

Beitrag von **ole1210** » 24.02.2006, 13:38

Nein!

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **marama** » 24.02.2006, 14:11

Hmmm.... das Nein betrifft also auch große SUMAs? Dass spam-spider sich um robots.txt einen Dreck kümmern ist schon klar.

Beitrag von **ole1210** » 24.02.2006, 14:25

Exakt. Ganz egal, ob ich google persönlich oder alle Robots anspreche. Manche Dateien sind ausgeschlossen aber im Index!

Beitrag von **marama** » 24.02.2006, 14:31

Ok, vielen Dank für die Info!

Beitrag von **Anonymous** » 24.02.2006, 15:06

Die Syntax mit dem * wäre auch falsch, es müsste

dissallow /

heissen....

mit dem * als wildcard kann es funktionieren, aber im robots.txt standard sind keinerlei wildcards definiert... also würde dein "dissallow *" u.U. sogar die gesamte Webseite für spider freigeben, naja bis auf die Datei mit dem dateinamen "*"

Bei der Spideraufzählung kann man den * als Platzhalter für alle vorher nicht genannten spider verwenden

https://www.bjoernsworld.de/suchmaschin ... s-txt.html

aber auch über robots.txt gesperrte Dateien können im Index auftauchen, dazu reicht bereits wenn der spider einen Link auf die Seite findet... er darf die Seite dann nicht spidern, aber er kennt sie anhand der URL im Link, und nimmt sie ggf. nur als URL in den Index auf... also ohne Beschreibung und Cache, denn gesehen hat er die Seite ja nie... so dürfte es da auch keinen DC geben, da er den Content der Seite nicht kennt....

Beitrag von **Chris2005** » 24.02.2006, 15:54

Bei einer richtige Robots.txt funktioniert das... Ich habe zu dem Thema vor einiger Zeit einiges geschrieben.

Des weiteren empfehle ich diesen Artikel von Southmedia zu lesen.