Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

HTTrack mit robots.txt draussen lassen

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Ralf
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 22.02.2004, 08:02
Wohnort: NRW

Beitrag von Ralf » 09.04.2004, 10:27

Hallo zusammen,

ich stelle gerade fest, dass HTTrack 3.0x bei mir reichlich Traffic verursacht.
Das ist nach Eigenaussage ein "Website Copier".
Unter anderem kann man ja auch dann in einem Forum angegebenen E-Mail Adressen mit diesem Programm dieses als "E-Mail Grabbing" nutzen.
Und dann wird gespammt was das Zeug hält.
Da ist der Ärger vorprogrammiert .........

Frage:
Kann ich mit der Robots.txt dieses Proggy aussen vor lassen ?
Würde es mit dieser funktionieren:
User-agent: HTTrack
Disallow: /
User-agent: *
Disallow:
Oder wie sollte dieses aussehen ?

Danke und Grüsse

Ralf

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Hulot
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 07.03.2004, 02:43

Beitrag von Hulot » 09.04.2004, 10:56

Hallo

Ob das etwas bringt, wage ich zu betweifeln. Kann doch der HTTrack-Anwender zwischen folgenden User-Agents auswählen:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
Mozilla/4.0 (compatible; MSIE 5.0; Win32)
Mozilla/4.5 (compatible; MSIE 4.01; Windows 98)
Mozilla/4.5 (compatible; MSIE 4.01; Windows 95)
Mozilla/4.5 (compatible; MSIE 4.01; Windows NT)
Mozilla/4.78 [en] (Windows NT 5.0; U)
Mozilla/4.61 [en] (Win98; I)
Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.1) Gecko/20020826
Mozilla/3.0 (Win95; I)
Mozilla/2.0 (compatible; MSIE 3.01; Windows 95)
Mozilla/4.5 [en] (X11; I; Linux 2.0.34 i686)
Mozilla/4.06C-EMS-1.4 [en] (X11; U; SunOS 5.5.1 sun4m)
Mozilla/4.5 (Macintosh; I; PPC)
Mozilla/3.01-C-MACOS8 (Macintosh; I; PPC)
Mozilla/2.0 (OS/2; I)
Mozilla/4.5 [en] (X11; U; SunOS 5.6 sun4u)
Mozilla/4.5 [en] (X11; I; AIX 4.1)
Mozilla/4.5 [en] (X11; I; FreeBSD 2.2.6-RELEASE i386)
Mozilla/3.01SGoldC-SGI (X11; I; IRIX 6.3 IP32)
Mozilla/3.0 WebTV/1.2 (compatible; MSIE 2.0)
Mozilla/2.0 (compatible; MS FrontPage Express 2.0)
Mozilla/4.05 [fr] (Win98; I)
Lynx/2.8rel.3 libwww-FM/2.14
Java1.1.4
Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
HyperBrowser (Cray; I; OrganicOS 9.7.42beta-27)
HTTrack/3.0x
HTTrack Website Copier/3.0x (offline browser; web mirror utility)
(none)
Willst Du die nun alle sperren?

Gruß Hulot

Ralf
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 22.02.2004, 08:02
Wohnort: NRW

Beitrag von Ralf » 09.04.2004, 11:29

Uppppps,

dass das so viele sind hätte ich nicht gedacht bzw. gewusst.
Bei mir istder HTTrack 3.0x; Windows 98.

Aber wie ist damit umzugehen ?

Abfinden ???


Grüsse

Ralf

Ice Man
PostRank 9
PostRank 9
Beiträge: 2477
Registriert: 04.06.2003, 19:16

Beitrag von Ice Man » 09.04.2004, 11:37

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^HTTrack

sollte dann für immer gesperrt sein

Also rein in die .htaccess

[wenn das die Browserkennung ist]

Hulot
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 07.03.2004, 02:43

Beitrag von Hulot » 09.04.2004, 11:37

Hallo Ralf
[...] Abfinden ??? [...]
Ich kenne leider keine Alternative. "HTTrack 3.0x; Windows 98" ist der standardmäßig eingestellte User-Agent. Dieser wird meist nicht geändert; man sollte daher wenigstens versuchen, diesen Agenten zu blocken.

Gruß Hulot

Ralf
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 22.02.2004, 08:02
Wohnort: NRW

Beitrag von Ralf » 09.04.2004, 13:02

Hallo zusammen,

vielen Dank für eure Tipps und Hinweise.
Ich werde das mit der .htacess wohl mal ausprobieren.

Grüsse
Ralf

Halli
PostRank 7
PostRank 7
Beiträge: 584
Registriert: 21.08.2003, 00:40
Wohnort: Hannover

Beitrag von Halli » 10.04.2004, 00:51

Ice Man hat geschrieben:RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^HTTrack

sollte dann für immer gesperrt sein
Könnt Ihr mir bitte sagen, wie ich diesen .htaccess Code ändern muß, damit der Bot nicht komplett ausgesperrt wird, sondern auf eine ganz bestimmte Zielseite, z.B. www.domain.de/offline.htm geleitet wird. Dort will ich dem Möchtegerngrabber dann eine CD mit dem kompletten Inhalt zum Kauf anbieten.
wer besoffen noch geradeaus fahren kann ist bald reif fürs www.mpu-forum.de

Hulot
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 07.03.2004, 02:43

Beitrag von Hulot » 10.04.2004, 01:13

Moin Halli,

im Prinzip keine schlechte Idee. Sollte der User-Agent bei HTTrack z.B. auf "Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.1) Gecko/20020826" stehen, nutzt das auch nicht viel mit dem htaccess-Eintrag.
Wirst wohl oder übel mit solchen Erscheinungen leben müssen - ich hab's nach ein paar Wochen aufgegeben, dem Biest ne Falle zu stellen. ;)

Gruß und schönes Osterfest
Hulot

Ice Man
PostRank 9
PostRank 9
Beiträge: 2477
Registriert: 04.06.2003, 19:16

Beitrag von Ice Man » 10.04.2004, 10:04

also bei den anderen Offline Saugern funnzt das bestens.
Aber die haben immer die gleiche Browserkennung.
Aber versuche es doch mal mit "*" das müsste dann alles mit Htdinges killen

Hulot
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 07.03.2004, 02:43

Beitrag von Hulot » 10.04.2004, 10:40

Hallo IceMan

Das könnte man ja direkt mal in der Praxis bei Dir testen, wenn Du willst.

Gruß Hulot

Ice Man
PostRank 9
PostRank 9
Beiträge: 2477
Registriert: 04.06.2003, 19:16

Beitrag von Ice Man » 10.04.2004, 20:14

also wenn bei mir son Sauger da war ( merke ich an den 404 Fehlern, die die Verursachen ) dann fliegt das Ding in die .htaccess.

Dann wird mit wannabrowser gecheckt, obs funnzt

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 12.04.2004, 18:10

@Halli
RewriteCond %{HTTP_USER_AGENT} httrack [NC]
RewriteRule !robots\.txt offline\.htm [L]

dann kriegt er wenigstens noch die robots.txt um sie allergnädigst zu beachten, ansonsten die offline.htm

Halli
PostRank 7
PostRank 7
Beiträge: 584
Registriert: 21.08.2003, 00:40
Wohnort: Hannover

Beitrag von Halli » 12.04.2004, 22:37

Danke, bull

Bis ich mit den Feinheiten klarkomme brauche ich wohl noch eine Weile ...
wer besoffen noch geradeaus fahren kann ist bald reif fürs www.mpu-forum.de

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 15.02.2012, 18:07

Auch wenn es etwas älter ist.

Neben dieser Sperre (die bei Noobs sehr gut funktioniert), kann man auch andere Fallen stellen. z.B. ein verlinktes transparentes 1x1 Pixel Bild im Footer verstecken. Der Link führt auf eine Seite, die per robots.txt verboten ist und die dann die Besucher-IP in die Firewall packt. Fast alle bösen Bots, die die robots.txt ignorieren werden auf diese Art erfasst.

Meine Firewall habe ich in PHP realisiert, weil ich flexibel bleiben wollte. Wenn ein böser Bot kommt, dann schreibe ich eine Textdatei auf meinen Server (IP = Dateiname, Dateiinhalt = $_SERVER, __FILE__, usw.).

Bei jedem Aufruf prüfe ich dann einfach mit file_exists() ob die IP bereits gesperrt wurde. Wenn ja erscheint ein Captcha mit dem man die IP wieder freischalten kann (wichtig, falls der böse Bot mit wechselnden IPs arbeitet und der nächste Besucher wieder brav ist).

Nach einem Monat wurden bereits über 1.000 IP-Adressen blockiert.

Ergänzend zu HTTrack wollte ich nun noch fragen, ob es noch weitere Website Copier Softwares gibt, die sich per User Agent outen und eine nennenswerte Verbreitung besitzen? Dann würde ich meine Firewall entsprechend ergänzen :D
Ich kaufe Dein Forum!
Kontaktdaten

dp-wurzel
PostRank 7
PostRank 7
Beiträge: 538
Registriert: 28.02.2007, 18:36

Beitrag von dp-wurzel » 15.02.2012, 18:40

Man kann aber auch Bot-trap installieren, das macht genau das :D

MfG dp-wurzel

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag