Seite 1 von 1

Robots sperren: Wie definiert man Ausnahmen und IP-Blöcke?

Verfasst: 29.10.2005, 02:39
von Hobby-SEO
Hallo,

ich arbeite gerade an meiner .htaccess-Datei, um böse Bots u.ä. auszusperren. Ein ganz kleiner Auszug:

Code: Alles auswählen

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
...
...
# die etwas gefaehrlicheren Regeln weil komplexer und vielleicht zu viel verboten wird
RewriteCond %{HTTP_USER_AGENT} collect [NC,OR]
RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]
...
...
# geblockte IP Adressen
RewriteCond %{REMOTE_ADDR} ^195\.166\.237\.

RewriteRule ^.*$ spider\.htm [L]
Nun meine Fragen:

1. Angenommen, ich möchte den User-agent TollerCrawler, der ja auch von

RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]

erfasst wird, von der Verbotsliste ausschließen, ihm das Spidern meiner Website also erlauben: Wie geht das?

2. Angenommen, ich möchte nur die IPs 195.166.237.30 bis 195.166.237.40 sperren: Wie geht das?

3. Hat jemand Interesse daran, dass ich meinen "vollständigen" Regelkatalog, sobald er fertig ist, hier poste? (Kann im schlechtesten Fall noch ein bis zwei Wochen dauern.)

LG, Hobby-SEO

Verfasst:
von

Verfasst: 29.10.2005, 08:17
von Hobby-SEO
Hihi,

kaum ist meine allererste Antirobots-htaccess für ein paar Stunden online, ist auch schon ein Bot geblockt worden:

Code: Alles auswählen

Host: 218.232.120.81
/robotsxx.txt
Http Code: 200  Date: Oct 28 19:33:03  Http Version: HTTP/1.0  Size in Bytes: 851
Referer: -
Agent: PlantyNet_WebRobot_V1.9 dhkang@plantynet.com

/
Http Code: 200  Date: Oct 28 19:33:04  Http Version: HTTP/1.0  Size in Bytes: 851
Referer: -
Agent: PlantyNet_WebRobot_V1.9 dhkang@plantynet.com

Scheint ein asiatischer Hersteller für Jugendschutzsoftware, also kein Böser, zu sein. Brauch den aber trotzdem nicht auf meiner Seite. Gegriffen hat übrigens die recht weit (zu weit?) gefasste Regel:

RewriteCond %{HTTP_USER_AGENT} robot [NC,OR]

Achja, eine Frage hätte ich auch noch: Welche Variante ist Server-schonender?

a. eine Liste a la RewriteCond %{REMOTE_ADDR} ^195\.166\.237\.
b. der weg über order deny,allow und deny from....

Oder hält sich das hinsichtlich der Serverbelastung in etwa die Waage?

LG, Hobby-SEO