Seite 1 von 1
Liste mit unnützen crawlern
Verfasst: 06.06.2008, 16:33
von Martin Ice
Servus,
ich versuche gerade mal eine Liste mit allen unnötigen crawlern und leachern zu erstellen, da ich von den täglichen Saugern ziemlich genervt bin:
ausgesperrt per htaccess habe ich bereits:
.youporn.com
85.17.226
85.17.216
85.17.196
85.17.165.97
85.17.173.2
85.17.165.89
ganz die 85.17 ausschliessen wäre wohl nicht gut, da es ein Öschi-DSL Provider ist. Ist aber ziemlich pervers, einen ausgesperrt, kommt am nächsten Tag der nächste.
65.98.224.5
webmisto.cz
theplanet.com
cuill.com
Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Verfasst: 06.06.2008, 18:10
von mauri
Verfasst: 07.06.2008, 09:39
von GreenHorn
Zum Aufzählen der wirklich nützlichen Spider braucht man nicht mal einen Merkzettel.
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 08.06.2008, 00:14
von nerd
BAN: Indy Library
das ist der default user agent irgend einer c++ klasse; taucht haeufig bei selbst programmierten bots auf.
Verfasst: 09.06.2008, 10:20
von Zasch
Mal ne ganz andere Frage: Wie kann ich sehen, welche Bots auf meine Seite zugegriffen haben?
Verfasst: 10.06.2008, 10:29
von everflux
Logdateien auswerten oder selber die User-Agents loggen.
Bei Bots, die sich als "normale" Usern tarnen wird es schon schwerer. Da gehts dann nur mit eher hohen Unzuverlässigkeiten über "Anomalien". (Kein CSS oder keine Bilder geladen als Beispiel.)
Verfasst: 10.06.2008, 22:48
von GreenHorn
Wer sauberen code fabriziert und selbst das favicon nicht vergißt, für den ist auch bsw. ein 404er ein Signal. Dann sieht man den Wald trotz Bäume noch... Wer mag libwww Besuche?
Verfasst: 10.06.2008, 23:18
von Airport1
greenhorns ansage lieber eine whitelist von bots zu fuehren ist gar nicht mal so verkehrt. es gibt unmengen von teilweise als angebliche suchmaschine getarnte bots, und diese list ist unueberschaubar lang. hingegen ist die liste der "sinnvollen" bots (google, yahoo, msn) ueberschaubar, selbst dann wenn man dann noch vereinzelt -was weiss ich- Thumbshot-Bot X, LinkChecker Y etc. hinzufuegt..
allerdings sollte man - aber nur vielleicht

- schon auch noch die normalen besucher durchlassen. wieviele browserkennungen es inzw. gibt (man bedenke auch die handy browser) ist nur grob bekannt. verlaesslich ist der ua aber wie everflux schon sagt wiederum auch nicht, da viele bots vermeintlich vorgeben normale besucher zu sein..
Verfasst: 08.07.2008, 14:55
von filmbox
Habe schnell eine Liste nach ABC für robots.txt. zusammengestellt. Am besten einfach ergänzen und korrigieren:
(Eine Liste mit IPs wäre auch ganz nett)
____________________________________
# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: Aqua_Products
Disallow: /
User-agent: asterias
Disallow: /
User-agent: b2w/0.1
Disallow: /
User-agent: BackDoorBot/1.0
Disallow: /
User-agent: BlowFish/1.0
Disallow: /
User-agent: Bookmark search tool
Disallow: /
User-agent: BotALot
Disallow: /
User-agent: BuiltBotTough
Disallow: /
User-agent: Bullseye/1.0
Disallow: /
User-agent: BunnySlippers
Disallow: /
User-agent: CheeseBot
Disallow: /
User-agent: CherryPicker
Disallow: /
User-agent: CherryPickerElite/1.0
Disallow: /
User-agent: CherryPickerSE/1.0
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: cosmos
Disallow: /
User-agent: Crescent
Disallow: /
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /
User-agent: DittoSpyder
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: EmailWolf
Disallow: /
User-agent: EroCrawler
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: FairAd Client
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Flaming AttackBot
Disallow: /
User-agent: Foobot
Disallow: /
User-agent: Gaisbot
Disallow: /
User-agent: GetRight/4.2
Disallow: /
User-agent: grub
Disallow: /
User-agent: grub-client
Disallow: /
User-agent: Harvest/1.5
Disallow: /
User-agent: hloader
Disallow: /
User-agent: httplib
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: humanlinks
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: ia_archiver/1.6
Disallow: /
User-agent: InfoNaviRobot
Disallow: /
User-agent: Iron33/1.0.2
Disallow: /
User-agent: JennyBot
Disallow: /
User-agent: Kenjin Spider
Disallow: /
User-agent: Keyword Density/0.9
Disallow: /
User-agent: larbin
Disallow: /
User-agent: LexiBot
Disallow: /
User-agent: libWeb/clsHTTP
Disallow: /
User-agent: libwww
Disallow: /
User-agent: LinkextractorPro
Disallow: /
User-agent: linko
Disallow: /
User-agent: LinkScan/8.1a Unix
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: looksmart
Disallow: /
User-agent: lwp-trivial
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: Mata Hari
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Microsoft URL Control - 5.01.4511
Disallow: /
User-agent: Microsoft URL Control - 6.00.8169
Disallow: /
User-agent: MIIxpc
Disallow: /
User-agent: MIIxpc/4.2
Disallow: /
User-agent: Mister PiX
Disallow: /
User-agent: moget
Disallow: /
User-agent: moget/2.1
Disallow: /
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: NetAnts
Disallow: /
User-agent: NetMechanic
Disallow: /
User-agent: NICErsPRO
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: Openfind
Disallow: /
User-agent: Openfind data gathere
Disallow: /
User-agent: Oracle Ultra Search
Disallow: /
User-agent: PerMan
Disallow: /
User-agent: ProPowerBot/2.14
Disallow: /
User-agent: ProWebWalker
Disallow: /
User-agent: psbot
Disallow: /
User-agent: Python-urllib
Disallow: /
User-agent: QueryN Metasearch
Disallow: /
User-agent: Radiation Retriever 1.1
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RMA
Disallow: /
User-agent: searchpreview
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: SpankBot
Disallow: /
User-agent: spanner
Disallow: /
User-agent: suzuran
Disallow: /
User-agent: Szukacz/1.4
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: Telesoft
Disallow: /
User-agent: The Intraformant
Disallow: /
User-agent: TheNomad
Disallow: /
User-agent: toCrawl/UrlDispatcher
Disallow: /
User-agent: True_Robot
Disallow: /
User-agent: True_Robot/1.0
Disallow: /
User-agent: turingos
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: URL_Spider_Pro
Disallow: /
User-agent: URLy Warning
Disallow: /
User-agent: VCI
Disallow: /
User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /
User-agent: Web Image Collector
Disallow: /
User-agent: WebAlta Crawler
Disallow: /
User-agent: WebAuto
Disallow: /
User-agent: WebBandit
Disallow: /
User-agent: WebBandit/3.50
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: WebEnhancer
Disallow: /
User-agent: WebmasterWorldForumBot
Disallow: /
User-agent: WebSauger
Disallow: /
User-agent: Website Quester
Disallow: /
User-agent: Webster Pro
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: WebZip/4.0
Disallow: /
User-agent: Wget
Disallow: /
User-agent: Wget/1.5.3
Disallow: /
User-agent: Wget/1.6
Disallow: /
User-agent: WWW-Collector-E
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: Xenu's
Disallow: /
User-agent: Xenu's Link Sleuth 1.1c
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: Zeus
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: ZyBORG
Disallow: /
Verfasst: 08.07.2008, 16:47
von Burns
Mit so einer Liste sperrt man nur die aus, die sich ja zumindest zu erkennen geben. Bei mir tummeln sich viele die versuchen als normaler Besucher zu erscheinen. die haben eine wechselde IP und normale UserAgents. Zu erkennen nur daran, dass die in einer Stunde 2000 Seitenaufrufe erzeugen. Die richtig lästigen Bots auszusperren ist ziemlich unmöglich weil kaum machbar
Was mich wundert ist, das die immer und immer wieder nur die gleichen Seiten aufrufen. Da könnt ich ausflippen ...
Verfasst: 09.07.2008, 08:47
von djmarten1
dann past der wohl auch rein 62.178.216.12
sonnenschein.technokontakte.at mehrmal schon aufgetaucht ohne UserAgent
und gestern mit betaBot.
Verfasst: 09.07.2008, 10:42
von webpilot
Ich finde die Lösung von
Spider Trap als Ergänzung gut. Dort werden Bots die sich nicht an die robots.txt halten gleich gesperrt.