Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

HTTrack mit robots.txt draussen lassen

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
captcha
PostRank 1
PostRank 1
Beiträge: 6
Registriert: 01.02.2012, 15:54

Beitrag von captcha » 15.02.2012, 19:32

Also als Benutzer von HTTrack muss ich sagen, dass man zwischen "robots.txt beachten" und "robots.txt ignorieren" wählen kann. Desweiteren kann man einen beliebigen User-Agent einstellen.

Diese beiden Tatsachen machen sowohl die robots.txt- als auch die .htaccess-Methode überflüssig. Nur ein Anfänger wird HTTrack mit den Standard-Einstellungen benutzen.

Ich empfehle dir dringend - wie andere auch schon - einen Honeypot oder ne Bottrap. Dann hast du nicht nur Ruhe vor HTTrack, sondern auch noch vor anderen (möglicherweise unbekannten) Spidern. Aber beachte auch: Google ist auch ein Crawler ... :)