Seite 1 von 2
Unknown robot (identified by 'crawl') wie aussperren?
Verfasst: 28.12.2005, 13:29
von helixxx
Hallo,
Ich würde gerne einen:
Unknown robot (identified by 'crawl')
aussperren, weil dieser viel zu viel Traffic erzeugt und scheinbar ja zu keiner der großen Suchmaschinen gehört! Wie finde ich seinen IP Bereich heraus? Bzw. wie sperre ich ihn am Besten aus? Wo sperre ich ihn am Besten aus?
Ich habe keine Lust auf irgendwelchen dubiosen Seiten zu finden zu sein.
Dankeschön!
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 28.12.2005, 15:35
von luigip
In diesem Forum findest du unter Wichtiges und Ankündigungen diesen thread:
Eine kleine Einführung für Neulinge ...
Dort werden dir deine Fragen beantwortet.
Unknown robot (identified by
Verfasst: 28.12.2005, 15:37
von helixxx
habe ja AWStats, das zeigt mir leider nur nicht die IP an.
EDIT: OK, werde ihn dann wohl per User-Agent aussperren.
Könntet ihr mir vielleicht noch sagen, ob es sich darum wirklich um keine Suchmaschine handelt?
Verfasst: 28.12.2005, 15:52
von luigip
Könntet ihr mir vielleicht noch sagen, ob es sich darum wirklich um keine Suchmaschine handelt?
Das läßt sich mit Bestimmtheit nur anhand der IP sagen, da der Useragent gefaked sein kann.
Lösung: Anständigen Webspace mit richtigen Logfiles leisten, dann siehst du die IP.
Unknown robot (identified by
Verfasst: 28.12.2005, 16:50
von firestarter
Wenn er AwStaTs verwendet dann hat er anständige Logfiles !!!
Erst überlegen dann schreiben @ luigp

Unknown robot (identified by
Verfasst: 28.12.2005, 18:34
von helixxx
korrekt, firestarter.
Ich habe halt noch nie in die Logfiles geguckt sondern verwende schon seit Anfang an AwStats.
Um auf meine Frage zurück zu kommen, wenn AwStats diesen Robot so bezeichnet müsste es sich doch um einen "bösen" Robot handeln und um keinen von Google & Co, oder?
Unknown robot (identified by
Verfasst: 04.01.2006, 14:17
von Hobby-SEO
Hallo helixxx,
ich habe schon seit ein paar Monaten folgende Zeile in meiner .htaccess-Sperrliste, ohne irgendwelche Probleme mit den großen Sumas zu haben:
RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]
LG, Hobby-SEO
Unknown robot (identified by
Verfasst: 04.01.2006, 14:22
von helixxx
Hallo Hobby-SEO,
Was bewirkt den diese Zeile?

Verfasst: 04.01.2006, 15:24
von Hobby-SEO
Ahoi helixxx,
diese Zeile allein bewirkt natürlich gar nichts. Aber im Gesamtzusammenhang einer Sperrliste bedeutet sie, dass alle User-agents, die "crawl" enthalten (Groß- und Kleinschreibung wird aufgrund des [NC] nicht beachtet, und es muss aufgrund des [OR] nachher noch eine weitere RewriteCond folgen), gesperrt werden.
Eine gaaaanz einfache .htaccess könnte etwa so lauten:
RewriteEngine on
# Standarddomain definieren
RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteCond %{HTTP_HOST} !^$
RewriteRule ^(.*) https://www.%{HTTP_HOST}/$1 [R=301,L]
# Rewriting gegen boese Bots
RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Black [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlowFish [OR]
RewriteCond %{HTTP_USER_AGENT} ^BotALot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bullseye [OR]
RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cegbfeieh [OR]
RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Convera [OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR]
RewriteCond %{HTTP_USER_AGENT} ^cosmos [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DataFountains [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Email [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Foobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Global\ Confusion [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^hloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^httplib [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^IBM_Planetwide [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Jakarta [OR]
RewriteCond %{HTTP_USER_AGENT} ^JennyBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^Kenjin [OR]
RewriteCond %{HTTP_USER_AGENT} ^Keyword [OR]
RewriteCond %{HTTP_USER_AGENT} ^LexiBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^libWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Lynx [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mata [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft\.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister [OR]
RewriteCond %{HTTP_USER_AGENT} ^moget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^QueryN [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [OR]
RewriteCond %{HTTP_USER_AGENT} ^RMA [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SlySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snoopy [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpankBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^spanner [OR]
RewriteCond %{HTTP_USER_AGENT} ^Super [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^suzuran [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^The\.Intraformant [OR]
RewriteCond %{HTTP_USER_AGENT} ^TheNomad [OR]
RewriteCond %{HTTP_USER_AGENT} ^TightTwatBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Titan [OR]
RewriteCond %{HTTP_USER_AGENT} ^turingos [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^URLy\.Warning [OR]
RewriteCond %{HTTP_USER_AGENT} ^VCI [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^web [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^www [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR]
# die etwas gefaehrlicheren Regeln weil komplexer und vielleicht zu viel verboten wird
RewriteCond %{HTTP_USER_AGENT} collect [NC,OR]
RewriteCond %{HTTP_USER_AGENT} crawl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} download [NC,OR]
RewriteCond %{HTTP_USER_AGENT} francis [NC,OR]
RewriteCond %{HTTP_USER_AGENT} grabb [NC,OR]
RewriteCond %{HTTP_USER_AGENT} harvest [NC,OR]
RewriteCond %{HTTP_USER_AGENT} httrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} larbin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} leech [NC,OR]
RewriteCond %{HTTP_USER_AGENT} libwww [NC,OR]
RewriteCond %{HTTP_USER_AGENT} majestic [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ng-search [NC,OR]
RewriteCond %{HTTP_USER_AGENT} nutch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} offline [NC,OR]
RewriteCond %{HTTP_USER_AGENT} omni [NC,OR]
RewriteCond %{HTTP_USER_AGENT} robot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} suck [NC,OR]
RewriteCond %{HTTP_USER_AGENT} sohu [NC,OR]
# gefaelschte Browserkennungen die normale User vorgaukeln sollen
RewriteCond %{HTTP_USER_AGENT} ^MSIE\ 6\.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
RewriteCond %{HTTP_USER_AGENT} MSIE\ 6\.0b
RewriteRule !403\.htm - [F,L]
Es gibt hier im Forum aber wirklich viele Beiträge dazu - einfach mal ein bisschen herumstöbern.
LG, Hobby-SEO
Unknown robot (identified by
Verfasst: 04.01.2006, 20:38
von helixxx
Lautet so deine .htaccess?

Re: Unknown robot (identified by
Verfasst: 04.01.2006, 22:13
von Hobby-SEO
helixxx hat geschrieben:Lautet so deine .htaccess?

Ja, das ist ein Originalausschnitt aus meiner .htaccess. Hinzu kommen z.B. noch das Rewriting für mein Forum, die "Kleinbuchstabenfalle" und ein paar geblockte IP-Bereiche.
Die .htaccess ließe sich zwar noch vereinfachen und gleichzeitig effizienter gestalten; aber dafür habe ich momentan keine Zeit.
LG, Hobby-SEO
Unknown robot (identified by
Verfasst: 04.01.2006, 22:18
von helixxx
Hm Rewriting nutze ich für mein Forum auch noch, welche IP-Bereiche blockst du den?
Ja, wer hat schon genug Zeit?
Zeit ist das kostbarste Gut überhaupt
RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteCond %{HTTP_HOST} !^$
Die Standardomain Definierung kenne ich noch gar nicht.
Ich hatte meine vorherige Standarddomina Definierung herausgenommen, weil seit ich einen SSL-Proxy benutze klappt das dann nicht mehr.
Irgendwelche Lösungsvorschläge?
RewriteRule ^(.*) https://www.%{HTTP_HOST}/$1 [R=301,L]
Außerdem was bedeutet diese Rule?
Verfasst: 04.01.2006, 22:45
von Hobby-SEO
Hallo,
irgendjemand hat diese Variante, eine Standarddomain zu definieren, hier im Forum gepostet. Weiß leider nicht mehr, wer es war. Auf jeden Fall funktioniert es prima. Gibt natürlich auch noch andere Möglichkeiten.
Der .htaccess-Code bewirkt, dass jeder Aufruf einer URL ohne www per 301er an die entsprechende Adresse mit www weitergeleitet wird: So wird z.B. domain.de/seite1.htm dadurch für die Sumas zu einem moved permanently to www .domain.de/seite1.htm
Ob das auch mit einem SSL-Proxy funktioniert, weiß ich leider nicht. Anders als die Profis von
www.modrewrite.de - wo es auch ein Forum gibt! - kenne ich mich mit diesen Rewrite-Sachen nur rudimentär aus.
Zu den geblockten IP-Bereichen: Sind nicht viele. Wer Zeit und Lust hat, kann hier im Forum (oder auch anderenorts im Netz) binnen Tagen sicher eine fünf Meter lange Liste von IPs zusammenstellen, die man aus diesem oder jenem Grund blocken sollte (wobei man dann auch nie weiß, wie aktuell das Ganze dann überhaupt noch ist). Zusätzlich oder gar als Alternative bietet sich eine
Bot trap an. Aber auch dazu bin ich noch nicht gekommen.
Code: Alles auswählen
# blocken nach IP Bereichen
<Limit GET POST>
order deny,allow
deny from 195.166.237
deny from 80.77.86
deny from 69.36.190.175
deny from 212.227.83.69
allow from all
</Limit>
<Limit PUT DELETE>
order deny,allow
deny from all
</Limit>
Schönen Abend noch!
Hobby-SEO
Unknown robot (identified by
Verfasst: 04.01.2006, 23:04
von helixxx
Danke für deine ausführlichen Erläuterungen.
Deinen genannten Link werde ich mir auf jedenfall mal näher anschauen!
RewriteRule !403\.htm - [F,L]
Eine Frage noch, was bewirkt die obengenannte Rule?
Nochmal Vielen Vielen Dank!
Unknown robot (identified by
Verfasst: 04.01.2006, 23:20
von Hobby-SEO
Achja, das ist schon noch wichtig: Alle Besucher, auf die eine der aufgezählten RewriteConditions zutrifft - also z.B. wenn im User-agent der String
crawl auftaucht -, werden per RewriteRule auf die Seite 403.htm im Rootverzeichnis weitergeleitet und bekommen gleichzeitig eine 403er-Fehlermeldung.
Diese Seite kannst Du so gestalten, wie Du es für richtig hältst. Ich hab dort - falls ich mal doch einen menschlichen Besucher aussperren sollte - z.B. stehen, dass die Firewall nicht den Referer
und den User-agent blockieren darf, weil man sonst unweigerlich auf der Seite 403.htm landet. Du kannst statt auf die Seite 403.htm natürlich z.B. auch nach www .yahoo.jp weiterleiten...
Ich denke, ich poste jetzt doch noch einen weiteren Ausschnitt aus meiner .htaccess, um weiteren Fragen vorzubeugen - für mich ist heute nämlich Schluss.
EDIT: Habe die Quelle, von der ich die Festlegung der Standarddomain übernommen habe, gerade gefunden:
https://www.abakus-internet-marketing.d ... tml#148064 Mario 670 gebührt die Ehre.
LG, Hobby-SEO
Code: Alles auswählen
# keine Browser die mit Kleinbuchstaben anfangen mit einigen Ausnahmen
RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteCond %{HTTP_USER_AGENT} !^contype
RewriteCond %{HTTP_USER_AGENT} !^googlebot\-urlconsole
RewriteCond %{HTTP_USER_AGENT} !^gigabot
RewriteCond %{HTTP_USER_AGENT} !^appie
RewriteRule !403\.htm|robots\.txt - [F,L]
# keine Browser ohne Referer und ohne User agent
RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST
RewriteRule !403\.htm - [F,L]
RewriteCond %{HTTP_USER_AGENT} link [NC]
RewriteCond %{HTTP_USER_AGENT} !tuezilla
RewriteCond %{HTTP_USER_AGENT} !backlink [NC]
RewriteRule !403\.htm|robots\.txt - [F,L]
RewriteCond %{HTTP_USER_AGENT} spider [NC]
RewriteCond %{HTTP_USER_AGENT} !icra [NC]
RewriteRule !403\.htm|robots\.txt - [F,L]