Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Robots sperren: Wie definiert man Ausnahmen und IP-Blöcke?

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 29.10.2005, 02:39

Hallo,

ich arbeite gerade an meiner .htaccess-Datei, um böse Bots u.ä. auszusperren. Ein ganz kleiner Auszug:

Code: Alles auswählen

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
...
...
# die etwas gefaehrlicheren Regeln weil komplexer und vielleicht zu viel verboten wird
RewriteCond %{HTTP_USER_AGENT} collect [NC,OR]
RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]
...
...
# geblockte IP Adressen
RewriteCond %{REMOTE_ADDR} ^195\.166\.237\.

RewriteRule ^.*$ spider\.htm [L]
Nun meine Fragen:

1. Angenommen, ich möchte den User-agent TollerCrawler, der ja auch von

RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]

erfasst wird, von der Verbotsliste ausschließen, ihm das Spidern meiner Website also erlauben: Wie geht das?

2. Angenommen, ich möchte nur die IPs 195.166.237.30 bis 195.166.237.40 sperren: Wie geht das?

3. Hat jemand Interesse daran, dass ich meinen "vollständigen" Regelkatalog, sobald er fertig ist, hier poste? (Kann im schlechtesten Fall noch ein bis zwei Wochen dauern.)

LG, Hobby-SEO

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 29.10.2005, 08:17

Hihi,

kaum ist meine allererste Antirobots-htaccess für ein paar Stunden online, ist auch schon ein Bot geblockt worden:

Code: Alles auswählen

Host: 218.232.120.81
/robotsxx.txt
Http Code: 200  Date: Oct 28 19:33:03  Http Version: HTTP/1.0  Size in Bytes: 851
Referer: -
Agent: PlantyNet_WebRobot_V1.9 dhkang@plantynet.com

/
Http Code: 200  Date: Oct 28 19:33:04  Http Version: HTTP/1.0  Size in Bytes: 851
Referer: -
Agent: PlantyNet_WebRobot_V1.9 dhkang@plantynet.com

Scheint ein asiatischer Hersteller für Jugendschutzsoftware, also kein Böser, zu sein. Brauch den aber trotzdem nicht auf meiner Seite. Gegriffen hat übrigens die recht weit (zu weit?) gefasste Regel:

RewriteCond %{HTTP_USER_AGENT} robot [NC,OR]

Achja, eine Frage hätte ich auch noch: Welche Variante ist Server-schonender?

a. eine Liste a la RewriteCond %{REMOTE_ADDR} ^195\.166\.237\.
b. der weg über order deny,allow und deny from....

Oder hält sich das hinsichtlich der Serverbelastung in etwa die Waage?

LG, Hobby-SEO

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag