Seite 1 von 1

Kurze Frage zur robots.txt

Verfasst: 05.06.2012, 07:42
von superolli
Guten Morgen, kurze Frage... wenn ich in der robots.txt schreibe


User-agent: *
Disallow: /.media/


.. dann wird
a) das Verzeichnis . media nicht gecrawlt aber
b) alle anderen Verzeichnisse werden gecrawlt (auch wenn allow nicht mehr da steht) ?

Richtig?

Verfasst:
von

Verfasst: 05.06.2012, 07:45
von Malte Landwehr
Richtig. Zumindest Google wird es so machen. Außer sie entscheiden sich, diese Anweisung zu ignorieren. Wird in deinem Fall aber wohl nicht passieren ;-)

Verfasst: 05.06.2012, 07:46
von superolli
Danke Malte! Hab ich verstanden. :-)

Verfasst: 05.06.2012, 08:02
von superolli
Gibt es irgendwo im Netzt eine Liste der nervigsten und überflüssigsten Crawler?

Verfasst: 05.06.2012, 08:14
von 800XE
superolli hat geschrieben:Gibt es irgendwo im Netzt eine Liste der nervigsten und überflüssigsten Crawler?
abakus-internet-marketing.de/robots.txt

Verfasst: 05.06.2012, 09:00
von superolli
Oh. Sehr schlau, danke

Verfasst: 05.06.2012, 11:47
von Vegas
superolli hat geschrieben:Oh. Sehr schlau, danke
Wenn Du ganz sicher gehen willst, wäre auch die Lösung über die .htaccess ein guter Ansatz. Leider haben nämlich die ganzen unerwünschten Bots die Neigung sich nicht unbedingt an die Vorgaben der Robots.txt zu halten, denn die Robots.txt ist im Gegensatz zur .htaccess keine Sperre sondern nur eine Handlungsempfehlung an die Bots.