Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Unknown robot (identified by 'crawl') wie aussperren?

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 28.12.2005, 13:29

Hallo,

Ich würde gerne einen:

Unknown robot (identified by 'crawl')

aussperren, weil dieser viel zu viel Traffic erzeugt und scheinbar ja zu keiner der großen Suchmaschinen gehört! Wie finde ich seinen IP Bereich heraus? Bzw. wie sperre ich ihn am Besten aus? Wo sperre ich ihn am Besten aus?

Ich habe keine Lust auf irgendwelchen dubiosen Seiten zu finden zu sein.
Dankeschön!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


luigip
PostRank 8
PostRank 8
Beiträge: 892
Registriert: 24.01.2005, 18:22

Beitrag von luigip » 28.12.2005, 15:35

In diesem Forum findest du unter Wichtiges und Ankündigungen diesen thread: Eine kleine Einführung für Neulinge ...
Dort werden dir deine Fragen beantwortet.

helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 28.12.2005, 15:37

habe ja AWStats, das zeigt mir leider nur nicht die IP an.

EDIT: OK, werde ihn dann wohl per User-Agent aussperren.
Könntet ihr mir vielleicht noch sagen, ob es sich darum wirklich um keine Suchmaschine handelt?

luigip
PostRank 8
PostRank 8
Beiträge: 892
Registriert: 24.01.2005, 18:22

Beitrag von luigip » 28.12.2005, 15:52

Könntet ihr mir vielleicht noch sagen, ob es sich darum wirklich um keine Suchmaschine handelt?
Das läßt sich mit Bestimmtheit nur anhand der IP sagen, da der Useragent gefaked sein kann.

Lösung: Anständigen Webspace mit richtigen Logfiles leisten, dann siehst du die IP.

firestarter
PostRank 8
PostRank 8
Beiträge: 954
Registriert: 26.05.2003, 13:52
Wohnort: Cairns

Beitrag von firestarter » 28.12.2005, 16:50

Wenn er AwStaTs verwendet dann hat er anständige Logfiles !!!
Erst überlegen dann schreiben @ luigp :wink:

helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 28.12.2005, 18:34

korrekt, firestarter.
Ich habe halt noch nie in die Logfiles geguckt sondern verwende schon seit Anfang an AwStats.

Um auf meine Frage zurück zu kommen, wenn AwStats diesen Robot so bezeichnet müsste es sich doch um einen "bösen" Robot handeln und um keinen von Google & Co, oder?

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 04.01.2006, 14:17

Hallo helixxx,

ich habe schon seit ein paar Monaten folgende Zeile in meiner .htaccess-Sperrliste, ohne irgendwelche Probleme mit den großen Sumas zu haben:

RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]

LG, Hobby-SEO

helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 04.01.2006, 14:22

Hallo Hobby-SEO,

Was bewirkt den diese Zeile? 0X

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 04.01.2006, 15:24

Ahoi helixxx,

diese Zeile allein bewirkt natürlich gar nichts. Aber im Gesamtzusammenhang einer Sperrliste bedeutet sie, dass alle User-agents, die "crawl" enthalten (Groß- und Kleinschreibung wird aufgrund des [NC] nicht beachtet, und es muss aufgrund des [OR] nachher noch eine weitere RewriteCond folgen), gesperrt werden.

Eine gaaaanz einfache .htaccess könnte etwa so lauten:
RewriteEngine on

# Standarddomain definieren
RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteCond %{HTTP_HOST} !^$
RewriteRule ^(.*) https://www.%{HTTP_HOST}/$1 [R=301,L]

# Rewriting gegen boese Bots
RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Black [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlowFish [OR]
RewriteCond %{HTTP_USER_AGENT} ^BotALot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bullseye [OR]
RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cegbfeieh [OR]
RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Convera [OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR]
RewriteCond %{HTTP_USER_AGENT} ^cosmos [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DataFountains [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Email [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Foobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Global\ Confusion [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^hloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^httplib [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^IBM_Planetwide [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Jakarta [OR]
RewriteCond %{HTTP_USER_AGENT} ^JennyBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^Kenjin [OR]
RewriteCond %{HTTP_USER_AGENT} ^Keyword [OR]
RewriteCond %{HTTP_USER_AGENT} ^LexiBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^libWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Lynx [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mata [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft\.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister [OR]
RewriteCond %{HTTP_USER_AGENT} ^moget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^QueryN [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [OR]
RewriteCond %{HTTP_USER_AGENT} ^RMA [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SlySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snoopy [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpankBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^spanner [OR]
RewriteCond %{HTTP_USER_AGENT} ^Super [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^suzuran [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^The\.Intraformant [OR]
RewriteCond %{HTTP_USER_AGENT} ^TheNomad [OR]
RewriteCond %{HTTP_USER_AGENT} ^TightTwatBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Titan [OR]
RewriteCond %{HTTP_USER_AGENT} ^turingos [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^URLy\.Warning [OR]
RewriteCond %{HTTP_USER_AGENT} ^VCI [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^web [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^www [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR]

# die etwas gefaehrlicheren Regeln weil komplexer und vielleicht zu viel verboten wird
RewriteCond %{HTTP_USER_AGENT} collect [NC,OR]
RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} download [NC,OR]
RewriteCond %{HTTP_USER_AGENT} francis [NC,OR]
RewriteCond %{HTTP_USER_AGENT} grabb [NC,OR]
RewriteCond %{HTTP_USER_AGENT} harvest [NC,OR]
RewriteCond %{HTTP_USER_AGENT} httrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} larbin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} leech [NC,OR]
RewriteCond %{HTTP_USER_AGENT} libwww [NC,OR]
RewriteCond %{HTTP_USER_AGENT} majestic [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ng-search [NC,OR]
RewriteCond %{HTTP_USER_AGENT} nutch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} offline [NC,OR]
RewriteCond %{HTTP_USER_AGENT} omni [NC,OR]
RewriteCond %{HTTP_USER_AGENT} robot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} suck [NC,OR]
RewriteCond %{HTTP_USER_AGENT} sohu [NC,OR]

# gefaelschte Browserkennungen die normale User vorgaukeln sollen
RewriteCond %{HTTP_USER_AGENT} ^MSIE\ 6\.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
RewriteCond %{HTTP_USER_AGENT} MSIE\ 6\.0b

RewriteRule !403\.htm - [F,L]
Es gibt hier im Forum aber wirklich viele Beiträge dazu - einfach mal ein bisschen herumstöbern. 8)

LG, Hobby-SEO

helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 04.01.2006, 20:38

Lautet so deine .htaccess? ;)

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 04.01.2006, 22:13

helixxx hat geschrieben:Lautet so deine .htaccess? ;)
Ja, das ist ein Originalausschnitt aus meiner .htaccess. Hinzu kommen z.B. noch das Rewriting für mein Forum, die "Kleinbuchstabenfalle" und ein paar geblockte IP-Bereiche.
Die .htaccess ließe sich zwar noch vereinfachen und gleichzeitig effizienter gestalten; aber dafür habe ich momentan keine Zeit.

LG, Hobby-SEO

helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 04.01.2006, 22:18

Hm Rewriting nutze ich für mein Forum auch noch, welche IP-Bereiche blockst du den?
Ja, wer hat schon genug Zeit?

Zeit ist das kostbarste Gut überhaupt ;)

RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteCond %{HTTP_HOST} !^$

Die Standardomain Definierung kenne ich noch gar nicht.
Ich hatte meine vorherige Standarddomina Definierung herausgenommen, weil seit ich einen SSL-Proxy benutze klappt das dann nicht mehr.
Irgendwelche Lösungsvorschläge?

RewriteRule ^(.*) https://www.%{HTTP_HOST}/$1 [R=301,L]

Außerdem was bedeutet diese Rule?
Zuletzt geändert von helixxx am 04.01.2006, 22:26, insgesamt 1-mal geändert.

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 04.01.2006, 22:45

Hallo,

irgendjemand hat diese Variante, eine Standarddomain zu definieren, hier im Forum gepostet. Weiß leider nicht mehr, wer es war. Auf jeden Fall funktioniert es prima. Gibt natürlich auch noch andere Möglichkeiten.

Der .htaccess-Code bewirkt, dass jeder Aufruf einer URL ohne www per 301er an die entsprechende Adresse mit www weitergeleitet wird: So wird z.B. domain.de/seite1.htm dadurch für die Sumas zu einem moved permanently to www .domain.de/seite1.htm
Ob das auch mit einem SSL-Proxy funktioniert, weiß ich leider nicht. Anders als die Profis von www.modrewrite.de - wo es auch ein Forum gibt! - kenne ich mich mit diesen Rewrite-Sachen nur rudimentär aus.

Zu den geblockten IP-Bereichen: Sind nicht viele. Wer Zeit und Lust hat, kann hier im Forum (oder auch anderenorts im Netz) binnen Tagen sicher eine fünf Meter lange Liste von IPs zusammenstellen, die man aus diesem oder jenem Grund blocken sollte (wobei man dann auch nie weiß, wie aktuell das Ganze dann überhaupt noch ist). Zusätzlich oder gar als Alternative bietet sich eine Bot trap an. Aber auch dazu bin ich noch nicht gekommen.

Code: Alles auswählen

# blocken nach IP Bereichen
<Limit GET POST>
order deny,allow
deny from 195.166.237
deny from 80.77.86
deny from 69.36.190.175
deny from 212.227.83.69
allow from all
</Limit>

<Limit PUT DELETE>
order deny,allow
deny from all
</Limit>
Schönen Abend noch!
Hobby-SEO

helixxx
PostRank 4
PostRank 4
Beiträge: 127
Registriert: 12.07.2005, 18:12
Wohnort: Vaihingen an der Enz

Beitrag von helixxx » 04.01.2006, 23:04

Danke für deine ausführlichen Erläuterungen.
Deinen genannten Link werde ich mir auf jedenfall mal näher anschauen!

RewriteRule !403\.htm - [F,L]

Eine Frage noch, was bewirkt die obengenannte Rule?

Nochmal Vielen Vielen Dank!

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 04.01.2006, 23:20

Achja, das ist schon noch wichtig: Alle Besucher, auf die eine der aufgezählten RewriteConditions zutrifft - also z.B. wenn im User-agent der String crawl auftaucht -, werden per RewriteRule auf die Seite 403.htm im Rootverzeichnis weitergeleitet und bekommen gleichzeitig eine 403er-Fehlermeldung.

Diese Seite kannst Du so gestalten, wie Du es für richtig hältst. Ich hab dort - falls ich mal doch einen menschlichen Besucher aussperren sollte - z.B. stehen, dass die Firewall nicht den Referer und den User-agent blockieren darf, weil man sonst unweigerlich auf der Seite 403.htm landet. Du kannst statt auf die Seite 403.htm natürlich z.B. auch nach www .yahoo.jp weiterleiten...

Ich denke, ich poste jetzt doch noch einen weiteren Ausschnitt aus meiner .htaccess, um weiteren Fragen vorzubeugen - für mich ist heute nämlich Schluss. :D

EDIT: Habe die Quelle, von der ich die Festlegung der Standarddomain übernommen habe, gerade gefunden: https://www.abakus-internet-marketing.d ... tml#148064 Mario 670 gebührt die Ehre.

LG, Hobby-SEO

Code: Alles auswählen

# keine Browser die mit Kleinbuchstaben anfangen mit einigen Ausnahmen
RewriteCond %&#123;HTTP_USER_AGENT&#125; ^&#91;a-z0-9&#93;+
RewriteCond %&#123;HTTP_USER_AGENT&#125; !^msnbot
RewriteCond %&#123;HTTP_USER_AGENT&#125; !^contype
RewriteCond %&#123;HTTP_USER_AGENT&#125; !^googlebot\-urlconsole
RewriteCond %&#123;HTTP_USER_AGENT&#125; !^gigabot
RewriteCond %&#123;HTTP_USER_AGENT&#125; !^appie
RewriteRule !403\.htm|robots\.txt - &#91;F,L&#93;

# keine Browser ohne Referer und ohne User agent
RewriteCond %&#123;HTTP_REFERER&#125; ^$ &#91;NC&#93;
RewriteCond %&#123;HTTP_USER_AGENT&#125; ^$ &#91;NC&#93;
RewriteCond %&#123;THE_REQUEST&#125; ^GET &#91;OR&#93;
RewriteCond %&#123;THE_REQUEST&#125; ^POST
RewriteRule !403\.htm - &#91;F,L&#93;

RewriteCond %&#123;HTTP_USER_AGENT&#125; link &#91;NC&#93;
RewriteCond %&#123;HTTP_USER_AGENT&#125; !tuezilla
RewriteCond %&#123;HTTP_USER_AGENT&#125; !backlink &#91;NC&#93;
RewriteRule !403\.htm|robots\.txt - &#91;F,L&#93;

RewriteCond %&#123;HTTP_USER_AGENT&#125; spider &#91;NC&#93;
RewriteCond %&#123;HTTP_USER_AGENT&#125; !icra &#91;NC&#93;
RewriteRule !403\.htm|robots\.txt - &#91;F,L&#93;

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag