Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

HTTrack mit robots.txt draussen lassen

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
captcha
PostRank 1
PostRank 1
Beiträge: 6
Registriert: 01.02.2012, 15:54

Beitrag von captcha » 15.02.2012, 19:32

Also als Benutzer von HTTrack muss ich sagen, dass man zwischen "robots.txt beachten" und "robots.txt ignorieren" wählen kann. Desweiteren kann man einen beliebigen User-Agent einstellen.

Diese beiden Tatsachen machen sowohl die robots.txt- als auch die .htaccess-Methode überflüssig. Nur ein Anfänger wird HTTrack mit den Standard-Einstellungen benutzen.

Ich empfehle dir dringend - wie andere auch schon - einen Honeypot oder ne Bottrap. Dann hast du nicht nur Ruhe vor HTTrack, sondern auch noch vor anderen (möglicherweise unbekannten) Spidern. Aber beachte auch: Google ist auch ein Crawler ... :)

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 19.02.2012, 15:57

Mir reicht der Ausschluss von Anfängern. Profis kann man sowieso nicht aushebeln bzw. dann geht es spürbar auf Kosten des Aufwands und der Performance.

Zum Bot-Trap Projekt:
Ich mag es nicht, wenn ich nicht die Kontrolle darüber habe welche IPs gesperrt werden. Es sind ja ganze IP-Ranges gesperrt. Davon halte ich schon mal gar nichts.

Nach diversen Beschwerden wurde ja irgendwann ein Captcha bei Bot-Trap integriert. Ich kann leider nicht sehen wie das aussieht. Meins ist jedenfalls international, also ohne Text. Und als Captcha nutze ich das bekannte ReCaptcha.

Ansonsten könnte es sein, dass Bot Trap gegen den Datenschutz verstößt. Schließlich kommen ja irgendwie neue IPs ins System. Also müssen die IPs zum Bot Trap Projekt weitergeleitet werden. Allerdings ist ja immer noch fraglich, ob eine IP ein personenbezogenes Datum ist ;)

Ich schau mir die Tage mal das Bot Trap Script an. Dann sage ich Euch, was ich technisch davon halte. Da bin ich von meinem eigenen Script nämlich sehr überzeugt, da es mehr als simpel ist:
https://www.maxrev.de/ip-firewall-blockt ... 234957.htm
(ich selbst nutze eine memcache-Variante)

EDIT: Man bekommt das Bot-Trap Script nur zu Gesicht, wenn man eine offizielle Bewerbung einsendet. Ich will da jetzt nicht rumlügen, nur damit ich das Script einsehen kann. Also falls es jemand hat, dann kann ich mir es gerne anschauen. Ansonsten habe ich noch einen negativen Punkt zu Bot-Trap: Backlink im Footer als Gegenleistung. Das ist ok für Hobby-Webmaster, aber nicht für den professionellen Sektor.
Ich kaufe Dein Forum!
Kontaktdaten

Antworten