ich versuche gerade mal eine Liste mit allen unnötigen crawlern und leachern zu erstellen, da ich von den täglichen Saugern ziemlich genervt bin:
ausgesperrt per htaccess habe ich bereits:
.youporn.com
85.17.226
85.17.216
85.17.196
85.17.165.97
85.17.173.2
85.17.165.89
ganz die 85.17 ausschliessen wäre wohl nicht gut, da es ein Öschi-DSL Provider ist. Ist aber ziemlich pervers, einen ausgesperrt, kommt am nächsten Tag der nächste.
Logdateien auswerten oder selber die User-Agents loggen.
Bei Bots, die sich als "normale" Usern tarnen wird es schon schwerer. Da gehts dann nur mit eher hohen Unzuverlässigkeiten über "Anomalien". (Kein CSS oder keine Bilder geladen als Beispiel.)
Wer sauberen code fabriziert und selbst das favicon nicht vergißt, für den ist auch bsw. ein 404er ein Signal. Dann sieht man den Wald trotz Bäume noch... Wer mag libwww Besuche?
greenhorns ansage lieber eine whitelist von bots zu fuehren ist gar nicht mal so verkehrt. es gibt unmengen von teilweise als angebliche suchmaschine getarnte bots, und diese list ist unueberschaubar lang. hingegen ist die liste der "sinnvollen" bots (google, yahoo, msn) ueberschaubar, selbst dann wenn man dann noch vereinzelt -was weiss ich- Thumbshot-Bot X, LinkChecker Y etc. hinzufuegt..
allerdings sollte man - aber nur vielleicht - schon auch noch die normalen besucher durchlassen. wieviele browserkennungen es inzw. gibt (man bedenke auch die handy browser) ist nur grob bekannt. verlaesslich ist der ua aber wie everflux schon sagt wiederum auch nicht, da viele bots vermeintlich vorgeben normale besucher zu sein..
Habe schnell eine Liste nach ABC für robots.txt. zusammengestellt. Am besten einfach ergänzen und korrigieren:
(Eine Liste mit IPs wäre auch ganz nett)
____________________________________
# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: Aqua_Products
Disallow: /
User-agent: asterias
Disallow: /
User-agent: b2w/0.1
Disallow: /
User-agent: BackDoorBot/1.0
Disallow: /
User-agent: BlowFish/1.0
Disallow: /
User-agent: Bookmark search tool
Disallow: /
User-agent: BotALot
Disallow: /
User-agent: BuiltBotTough
Disallow: /
User-agent: Bullseye/1.0
Disallow: /
User-agent: BunnySlippers
Disallow: /
User-agent: CheeseBot
Disallow: /
User-agent: CherryPicker
Disallow: /
User-agent: CherryPickerElite/1.0
Disallow: /
User-agent: CherryPickerSE/1.0
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: cosmos
Disallow: /
User-agent: Crescent
Disallow: /
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /
User-agent: DittoSpyder
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: EmailWolf
Disallow: /
User-agent: EroCrawler
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: FairAd Client
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Flaming AttackBot
Disallow: /
User-agent: Foobot
Disallow: /
User-agent: Gaisbot
Disallow: /
User-agent: GetRight/4.2
Disallow: /
User-agent: grub
Disallow: /
User-agent: grub-client
Disallow: /
User-agent: Harvest/1.5
Disallow: /
User-agent: hloader
Disallow: /
User-agent: httplib
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: humanlinks
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: ia_archiver/1.6
Disallow: /
User-agent: InfoNaviRobot
Disallow: /
User-agent: Iron33/1.0.2
Disallow: /
User-agent: JennyBot
Disallow: /
User-agent: Kenjin Spider
Disallow: /
User-agent: Keyword Density/0.9
Disallow: /
User-agent: larbin
Disallow: /
User-agent: LexiBot
Disallow: /
User-agent: libWeb/clsHTTP
Disallow: /
User-agent: libwww
Disallow: /
User-agent: LinkextractorPro
Disallow: /
User-agent: linko
Disallow: /
User-agent: LinkScan/8.1a Unix
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: looksmart
Disallow: /
User-agent: lwp-trivial
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: Mata Hari
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Microsoft URL Control - 5.01.4511
Disallow: /
User-agent: Microsoft URL Control - 6.00.8169
Disallow: /
User-agent: MIIxpc
Disallow: /
User-agent: MIIxpc/4.2
Disallow: /
User-agent: Mister PiX
Disallow: /
User-agent: moget
Disallow: /
User-agent: moget/2.1
Disallow: /
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /
Mit so einer Liste sperrt man nur die aus, die sich ja zumindest zu erkennen geben. Bei mir tummeln sich viele die versuchen als normaler Besucher zu erscheinen. die haben eine wechselde IP und normale UserAgents. Zu erkennen nur daran, dass die in einer Stunde 2000 Seitenaufrufe erzeugen. Die richtig lästigen Bots auszusperren ist ziemlich unmöglich weil kaum machbar
Was mich wundert ist, das die immer und immer wieder nur die gleichen Seiten aufrufen. Da könnt ich ausflippen ...