Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Eine aktuelle Zusammenstellung von Bot-Ungeziefer ...

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
hard_pollux
PostRank 9
PostRank 9
Beiträge: 1057
Registriert: 10.03.2004, 12:41

Beitrag von hard_pollux » 26.04.2005, 09:21

stp69,

ich hatte zunächst eine Lösung over IP für diesen "Spastikus"-Bot (oder wie auch immer er heißen mag), da er es schamlos übertreibt. Den kompletten IP-Bereich seines Hosters gesperrt. Ein Besuchereinbruch war dadurch nich zu verzeichnen, denn über solche Sumas kommen keine Besucher, liegt auch nicht im Interesse des Betreibers, da ist Adsenseklicken gefragt.
Viel kommt dabei für den Betreiber augenschenlich nicht rum, denn wie gesehen, werden Kostenloscounter benutzt - wie armselig!

Nun, wie ich seinerzeit schon erwähnte, ist der zuvor benannte Bot nur einer unter vielen, die Nachahmer schießen wie Pilze aus dem Sumpf des Netzes. Also galt es, einen Bot als solchen zu erkennen, bevor er tätig wird - geht natürlich nicht.
Also kann die Lösung nur sein, ersteinmal die Domain für Alle zu sperren, und nun die gewünschten Besucher herein zu lassen. Dies kann man anhand des Useragenten, anhand des Referrers, anhand der IP. Und Besucher, welche die nach diesem Muster gesetzten Kriterien nicht erfüllen, werden auf eine besondere Auswahlseite geschickt, oder z.B. yahoo_japan.
Ein einfaches Beispiel: der Referrer muß Google, yahoo, MSN oder die eigene Domain sein, sonst kein Zugriff, Ausnahme Googlebot, msnbot, slurp, Ausnahmen doppelt over IP sichern.
Diese Möglichkeiten lassen sich vielfach variieren, und je unterschiedlicher sie sind, um so unmöglicher für die Schmarotzer, die Sperren zu umgehen.
Nach diesem Muster wurde meine Lösung "gestrickt". Ein anderer Webmasterkollege, hat es über JS gelöst.
Useragenten lassen sich sicherlich beliebig bei diesen Bots einstellen, IP-Adressen noch nicht.
Aktuelle IP-Listen zu Google, MSN und yahoo, gibt es im Netz, must Du mal nach googlen.

Gruß
HardPollux

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

hard_pollux
PostRank 9
PostRank 9
Beiträge: 1057
Registriert: 10.03.2004, 12:41

Beitrag von hard_pollux » 26.04.2005, 09:44

mario,

so:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^\([^\)]+$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Anarchie [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Black\.Hole [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlowFish [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^BotALot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bullseye [OR]
RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cegbfeieh [OR]
RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^compatible\ ;\ MSIE\ 6.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR]
RewriteCond %{HTTP_USER_AGENT} ^cosmos [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [OR]
RewriteCond %{HTTP_USER_AGENT} ^dloader(NaverRobot) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EroCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Foobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Get [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^Harvest [OR]
RewriteCond %{HTTP_USER_AGENT} ^hloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^humanlinks [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^IE\ \d\.\d\ Compatible.*Browser$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} ^InfoNaviRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Irvine [OR]
RewriteCond %{HTTP_USER_AGENT} ^JennyBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Kenjin\.Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Keyword\.Density [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^LexiBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^libWeb\/clsHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkextractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkScan\/8\.1a\.Unix [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial [OR]
RewriteCond %{HTTP_USER_AGENT} ^mail [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mata.Hari [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft\.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\.PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^moget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*\ obot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/2 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/3\.Mozilla\/2\.01 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/4\.0$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^oBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^oegp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^PingALink [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot\/2\.14 [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^QueryN.Metasearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [OR]
RewriteCond %{HTTP_USER_AGENT} ^RMA [OR]
RewriteCond %{HTTP_USER_AGENT} ^RIN\.\ Web\ crawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^SearchExpress [OR]
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SlySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpankBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^spanner [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^suzuran [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^The\.Intraformant [OR]
RewriteCond %{HTTP_USER_AGENT} ^TheNomad [OR]
RewriteCond %{HTTP_USER_AGENT} ^TightTwatBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Titan [OR]
RewriteCond %{HTTP_USER_AGENT} ^toCrawl/UrlDispatcher [OR]
RewriteCond %{HTTP_USER_AGENT} ^True_Robot [OR]
RewriteCond %{HTTP_USER_AGENT} ^turingos [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^URLy\.Warning [OR]
RewriteCond %{HTTP_USER_AGENT} ^VCI [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWW\-Collector\-E [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Lynx [OR]
RewriteCond %{HTTP_USER_AGENT} ^Konqueror [OR]
RewriteCond %{HTTP_USER_AGENT} ^Opera [OR]
RewriteCond %{HTTP_USER_AGENT} ^Java [OR]
RewriteCond %{HTTP_USER_AGENT} ^thesubot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Python* [OR]
RewriteCond %{REMOTE_ADDR} ^217\.115\.(13[8-9]|14[0-3])\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
RewriteRule ^.* - [F]

order deny,allow
deny from 67.15.0.0
deny from 67.15.128.0
deny from 67.15.160.0
deny from 130.83.
deny from 213.128.124.
deny from 213.128.125.
deny from 213.128.126.
deny from 213.128.127.
deny from 213.239.194.170
deny from 213.83.
deny from 212.19.
ErrorDocument 403 https://www.yahoo.co.jp/
ErrorDocument 404 https://www.yahoo.co.jp/
ErrorDocument 500 https://www.yahoo.co.jp/

sah meine alte htaccess aus.
Da hätte ich sicherlich täglich neue Einträge hinzufügen können, bis das ganze Internet gesperrt ist, und dann den Stecker ziehen können.

Meine jetzige htaccess ist gegenüber der alten sehr schlank, Änderungen werden nur noch vorgenommen, falls mir ein Sumabetreiber vorher nachweist, daß der Traffic der von über seine Suma generierte Besucher größer ist, als der Traffic, den sein Bot verursacht, oder ich irgendwelche Sicherheitslücken entdecke.
Bin leider kein Apache-Experte, obwohl ich über ein tolles Buch verfüge - hat seinerzeit über hundert Märker gekostet.

Gruß
HardPollux
Zuletzt geändert von hard_pollux am 26.04.2005, 09:58, insgesamt 1-mal geändert.

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 26.04.2005, 09:50

Ich erlaube mir, da wir schon dabei sind, Teile meiner Robotliste sowie zusätzlich unangenehm aufgefallene IP-Bereiche zu posten. Hinweis: Bei der Botliste handelt es sich um meine "Ignore"-Liste für die Statistikauswertung, so daß die User-agents teilweise nicht in ihrer ganzen Länge, sondern besonders bei Versionsnummern nur ausschnittsweise erfaßt sind!

Code: Alles auswählen

WeatherBot v1.4 http://www.ezweather.net
StackRambler
BecomeBot
psbot/
DataCha0s/
Metaspinner/0.01 (Metaspinner; http://www.meta-spinner.de/; support@meta-spinner.de/)
Speedy Spider 
BigCliqueBOT/
versus crawler eda.baykan@epfl.ch
http://www.Syntryx.com/
heritrix/1
Mozdex/0.06-dev (Mozdex; http://www.mozdex.com/bot.html; spider@mozdex.com)
snap.com beta crawler v0
Mozilla/6.0 (MSIE 6.0; Windows NT 5.1; DibixBot.Net)
Mozilla/4.0 (compatible; MSIE 5.00; Windows XP Service Pack 2)
CFNetwork/
Mozilla/4.0 (compatible; MSIE 5.00; Windows 2000 With Service Pack 4)
Mediapartners-Google/2.1
4domains crawler - http://4domains.de
hansis.net(www.hansis.net) SP Jeanie/
InternetSupervision
wgao@genieknows.com
aipbot/
unknown/1.0
ucsbimagefinder
WinHttp
AtlocalBot/1
k2spider
MediaMirror (0.1a)
telnet0.1
Gruppo IH S.r.l. RPR
Mozilla/5.001 (windows; U; NT4.0; en-us) Gecko/25250101
Mozilla/3.0 (INGRID/3.0 MT; 
Kitenga-crawler
l'Arbin_ZZ_2.6.3
HooWWWer/2.1.0
Helmdall (webmaster@crawler.com)
MnoGoSearch
DataFountains/DMOZ Downloader
KazoomBot/0
abot/0.1 (abot; http://www.abot.com; abot@abot.com)
NWSpider 0.9
Mozilla/2.0 (compatible; Ask Jeeves/Teoma)
Mozilla/4.0 (compatible; AvantGo 5.2; FreeBSD)
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
POE-Component-Client-HTTP/0.
Orbiter/T-2.0 (+http://www.dailyorbit.com/bot.htm)
Microsoft Internet Explorer
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; http://InternetSupervision.com/UrlMonitor)
msnbot/0.11
MVAClient
Java/1.
NextGenSearchBot
Microsoft Data Access Internet Publishing Provider Protocol Discovery
Sopheus Project/
Mozilla/4.0 (compatible; MSIE 4.01; 
NetMailXT
BlackBerry7280
sureseeker.com)
Microsoft Office Protocol Discovery
MojeekBot/0
Mozilla/4.0(
Crawler (cometsearch@cometsystems.com)
Revolution (
Offline Explorer
Teleport Pro
AnsearchBot
MyApp
Links (
Wget/
Faxobot
Microsoft Scheduled Cache Content Download 
savvybot/0.2
googlebot-urlconsole
ActiveBookmark
Jakarta Commons
MetaGer_PreChecker0.1
WorldWideWeb-X/
newsg8/
DiamondBot
Poodle predictor
Mozilla/4.7 [en]C-NSCPCD (Win98; U)
compatible;MSIE 6.0;Windows NT 5.51 SP Jeanie/
Wget/1
Mozilla/4.0 (compatible; grub-client-2.3)
thesubot
webcollage.p
Mozilla/4.0 (compatible; MSIE 5.00; Windows XP )
btbot/0.4 (+http://www.btbot.com/btbot.html)
OmniExplorer
IFbot/1.0 (+http://www.italiafacile.it/bot.htm)
Mozilla/4.0 (compatible; Zealbot 1.0)
Enigma Browser
boris_ntu boris@nowtryus.net
Links (0.96; Darwin 7.2.1 Power Macintosh)
unchaos_crawler
UCmore
User-Agent: Mozilla/4.0 
lwp-trivial/
LinkAlarm
WebCapture
KnowItAll
Mozilla/4.5 (compatible; MSIE 4.01; Windows NT)
libwww-perl
Artface
Mozilla/3.Mozilla/2.01 (Win95; I)
MMCrawler
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;)
GeonaBot
appie
updated/0.1beta
YottaShopping_Bot
InelaBot/0.2 (+http://inelegant.org/bot)
WebCopier
Mozilla/4.0 (compatible; MSIE ; Mac_PPC)
Quiddler
Mozilla/4.72 [en]C-bls40 (Win98; I)
Holmes/
Homerweb
Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)
Mozilla/4.0+(compatible;+
ichiro/1.0 (ichiro@nttr.co.jp)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; AIRF)
Mozilla/4.7 [en](Exabot@exava.com)
http://medical-info.de/ (http://narres.it/)
WebPix 1.0
accoona
jeanie/
Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)
Mozilla/4.0 (stat 0.12) (statbot@gmail.com)
YottaCarsBot
Patwebbot (http://www.herz-power.de/technik.html)
Microsoft Data Access Internet Publishing Provider
MSFrontPage
IconSurf
FAST Enterprise Crawler/6 (www.fastsearch.com)
TutorGigBot
Mozilla/4.0 (JemmaTheTourist;http://www.activtourist.com)
ConveraCrawler
Mozilla/5.0 CostaCider Search http://www.costacider.com/bot/
IRLbot/1.0 (+http://irl.cs.tamu.edu/crawler)
sherlock/1.0
smartwit.com
Mozilla/4.0 (compatible; MSIE\x0f\x88\xc5`; Windows 98)
DA 5.3
Ultraseek
unchaos_crawler
pavuk/0.9
Tarantula Experimental Crawler
f-bot test pilot
Mozilla/2.0 (compatible; MS FrontPage 4.0)
Html Link Validator (www.lithopssoft.com)
Top10Ranking Spider
(MSIE 6; Windows 98)
CreativeCommons/0.06-dev
Mozilla/4.7 [de] (Win98; U)+
Mozilla/4.0 (compatible; Mavicanet robot; www.mavicanet.org)
Knowledge.com/0.2
PHPOpenChat-Robot (http://phpopenchat.sourceforge.net/)
SBL-BOT
SurveyBot/2.3 (Whois Source)
InnerpriseBot
Deepnet Explorer
gazz/5.0 (gazz@nttr.co.jp)
webcrawl.net
-DIE-KRAEHE-
search.updated.com
NetStar
Mozilla/4.0 (compatible; MSIE 4.01; MSN 2.6; Windows 98)
SearchByUsa/2
WTA_1.0.6.15
findlinks
SpaceBison
Ihr Auftritt
Mozilla/3.0 (compatible; Fluffy the spider; http://www.searchhippo.com/; info@searchhippo.com)
EARTHCOM.info
Microsoft Data Access 
Mozilla/4.5 [en] (Win98; I)
IP*Works! V5 HTTP/S Component - by /n software - www.nsoftware.com
pipeLiner/0.3a
Mozilla/5.0 (compatible; Windows NT 5.1; AOL)
eStyleSearch 4 (compatible; MSIE 6.0; Windows NT 5.0)
obot
GetHTMLContents3
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; PrassoSunner 1.00; http://www.prasso.com;)
oBot
MOT-V220/0B.D1.09R MIB/2.2.1 Profile/MIDP-2.0 Configuration/CLDC-1.0
Y!OASIS/TEST no-ad Mozilla/4.08 [en] (X11; I; FreeBSD 2.2.8-STABLE i386)
Mister Pix
Mozilla/4.0+(compatible;)
Nutscrape
NetStar
IEXPLORE.EXE
CFNetwork/1.1
webrank
WebZIP/
wbdbot
Mozilla/4.0 (compatible; Trend Micro tmdr 1.0-1032)
compatible ; MSIE 
sna-0.0.1
Mozilla/5.0 (Windows; U; Windows NT 5.0; de-DE; rv:1.7.3) Gecko/20040913 Thunderbird/0.8
Collector 1.0
HTMLParser
Mozilla/4.05 [en]
Jetbot
Website Downloader
WTA
molbsy
PhpDig
(statcrawler@gmail.com)
\"SeznamBot/1.0\"
CydralSpider
booch_1.0.7
ETS v5.1
GeorgeTheTouristBot
Mozilla/5.0 (http://www.molbsy.de/)
SightQuest
Faxobot
bull;-)
GoForIt.com
River Valley Inc
ABACHOBot
Mozilla/4.0 (compatible; MSIE 6.0; forschungsportal.net; dhennig@rrzn.uni-hannover.de)
Mozilla/5.0 (compatible; Konqueror/3.0-rc4; i686 Linux; 20020106)
ELinks
dsdl0
MSNPTC/1.0
12bot (http://12-suchen.de/)
Mozilla/4.0 (compatible; MSIE 4.0; Windows NT; ....../1.0 )
12BOT (http://www.12-suchen.de/)
http://www.galaxy.com/info/
www.adressendeutschland.de
LWP::Simple
Microsoft Data Access Internet Publishing Provider
arianna.libero.it Linux/2.4.9-34enterprise (linux)
www.peerbot.com
HTTP:
Mozilla/6.0 [en] (Win32; I)
WorQmada/1.0
Crowline/0.1
WWWeasel Robot v1.00 (http://wwweasel.de)
Java1.3.1_06
Snoopy 
falcon/1.0
Webster Pro
Moozilla
MetaSpider
SlimBrowser
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt; empas)
Uptimebot
ZipppBot
W3C_CSS_Validator
Sqworm
MSFrontPage
WSB, http://websearchbench.cs.uni-dortmund.de
main()
NuSearch
Mozilla/4.0 (compatible; MSIE 6.0; Win32)
Mozilla/4.0 (compatible; MSIE 6.0b; Windows NT 5.0)
Indy Library
AnswerBus (http://www.answerbus.com/)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)-s
curl/
Mozilla/3.0 (Compatible;Viking/1.91-399D)
MSProxy
IE 5.5 Compatible Browser
Lynx
LNM 01 (http://latz-new-media.de/)
sohu-search
my_mini_google
Mozilla/3.01 (compatible; NPT 0.0 beta)
FLPro
Microsoft Internet Explorer
SiteSucker
Setaccio
wwwster
Omni-Explorer
FindWeb
boitho.com
trexmod
Mnogosearch
TurnitinBot
WinHttp.WinHttpRequest
BlackMask
Program Shareware
Arianna Spider
Internet Explorer 5.5
Mozilla/3.0 (X11; I; SunOS 5.4 sun4m)
UptimeBot
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98
CSUofA
MSProxy/2.0
Aleksika
JoeDog
CosmixCrawler
FAST-WebCrawler/
Links (0.98; Darwin 
(+http://wortschatz.uni-leipzig.de/findlinks/)
http://www.clush.com/
Link Checker
Scooter/3.3_SF
CrawlConvera
nuSearch Spider www.nusearch.com (compatible; MSIE 4.01; Windows NT)
Mozilla/4.0 (compatible; T-H-U-N-D-E-R-S-T-O-N-E)
Mozilla/4.0 (compatible; MSIE 6.0)
Mozilla/4.0 (compatible;)
Mozilla/4.0 (compatible)
Mozilla/3.0 (compatible)
Mozilla/3.01 (compatible;)
iexplore.exe
contype
Zeus Webster Pro
Search-Channel
Cerberian 
bullingerz
http://www.die-kraehe.de
http://www.miragorobot.com/scripts/deinfo.asp
GeonaBot 1.0; http://www.geona.com/
Gaisbot/3.0
Setaccio
WebRaptor
Generic
HTTrack
lwp-trivial
test/
JoBo/1.3 (http://www.matuschek.net/jobo.html)
agadine
http://www.sygol.com
Wget/
BravoBrian bstop.bravobrian.it
Reaper
asterias
lwp-request
gsa-crawler (Enterprise; GID-02529; gsatesting@rediffmail.com)
lkcndjipunjcvnso1Epm1ojss
Scooter/3.3
Tutorial Crawler 1.4 (http://www.tutorgig.com/crawler)
SuperGet/0.1 (Ideare)
Mozilla/4.0 (compatible; Cerberian Drtrs Version-3.1-Build-11)
http://www.girafa.com
MetaGer-LinkChecker
Mozilla/3.01 (compatible;)
VoilaBot
IXE Crawler
Mac Finder
Scooter/3.2
http://www.avaris-webdesign.de
Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)
infomine.ucr.edu
wntest
HTTPClient
MSIECrawler
SmartDownload
Robozilla/1.0
Crawl_Application
http://www.die-kraehe.com
WebRACE
eventax
SKIZZLE
webcollage/
Francis
Microsoft URL Control
TREX
WEP Search 00
Cityreview Robot
Searchspider
MSProxy
DeepIndex
Cowbot
FAST FirstPage retriever 
translate.google.com
Cache (morourke@austin.rr.com)
Website Downloader
Mozilla/3.0 (compatible; Indy Library)
SearchGuild
PanopeaBot
Locator 
WSB WebCrawler
search.ch
futaba@toshiaki
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
InfoLink/
NutchCVS
NutchOrg
Webverzeichnis.de - Telefon: 01908 / 26005
http://www.almaden.ibm.com/cs/crawler
Wget/1.9
Mozilla/4.0 (compatible; grub-client
VSE/1.0
Java/
Xenu Link Sleuth
Xenu's Link Sleuth
Links SQL
PHP/4
Gigabot/
Baiduspider
QuepasaCreep
WebStripper/
GetRight
Mozilla/5.1
Look.com
http://tuezilla.de/test-odp-links-agent.html)
PitaASPseek
Python-urllib
Skampy/
Vagabondo
NetNose-Crawler
Dumbot
TygoBot
NG/2.0
ObjectsSearch
EasyDL
Botswana v0.1
lachesis
dloader
libwww
Microsoft Internet Explorer/4.40.426 (Windows 95)
Mozilla/4.0 (Windows XP 5.1)
larbin
Openfind data gatherer
ia_archiver
Mozilla(IE Compatible)
Pompos/1.3 http://dir.com/pompos.html
UCmore
www.walhello.com
NetResearchServer/
Mozilla/4.0 (compatible; MSIE 7.01; Windows 98)
Green Research, Inc.
Yahoo-MMCrawler
istarthere.com 
Lycos_Spider
Teradex_Mapper
NaverBot
TAMU_CS_IRL_CRAWLER
Franklin Box Company
Szukacz/
Zao/0.2 (http://www.kototoi.org/zao/)
Wildsoft Surfer
Holmes/1.0
Vakes/0.01 (Vakes; http://www.vakes.com/; search@vakes.com)
Trampel-Bot
Fetch API Request
MSIE 7.01
SURF
testbot
JobSpider_BA/1.1

Code: Alles auswählen

RewriteCond %{REMOTE_ADDR} ^12\.105\.(4[0-7])\. [OR]
RewriteCond %{REMOTE_ADDR} ^12\.148\.196\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])$ [OR]
RewriteCond %{REMOTE_ADDR} ^12\.148\.209\.(19[2-9]|2[0-4][0-9]|25[0-5])$ [OR]
RewriteCond %{REMOTE_ADDR} ^12\.211\.(9[6-9]|10[0-9]|11[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^24\.90\.243\.203 [OR]
RewriteCond %{REMOTE_ADDR} ^24\.153\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^38\.118\.25\.(5[6-9]|6[0-3])$ [OR]
RewriteCond %{REMOTE_ADDR} ^38\.118\.42\.3[2-9]$ [OR]
RewriteCond %{REMOTE_ADDR} ^61\.(3[0-9]|4[0-3]|4[8-9]|5[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^62\.23\.58\.(12[8-9]|1[3-4][0-9]|15[0-9]) [OR]
RewriteCond %{REMOTE_ADDR} ^62\.58\.32\.(6[4-9]|[7-8][0-9]|9[0-5]) [OR]
RewriteCond %{REMOTE_ADDR} ^62\.159\.89\.([0-9]|[1-6][0-9])$ [OR]
RewriteCond %{REMOTE_ADDR} ^62\.159\.229\.(6[4-9]|7[0-1])$ [OR]
RewriteCond %{REMOTE_ADDR) ^63\.144\.231\. [OR]
RewriteCond %{REMOTE_ADDR} ^63\.148\.99\. [OR]
RewriteCond %{REMOTE_ADDR) ^63\.174\.33\.196 [OR]
RewriteCond %{REMOTE_ADDR} ^63\.212\.171\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-4])$ [OR]
RewriteCond %{REMOTE_ADDR} ^64\.62\.(12[8-9]|1[3-9][0-9]|2[0-5][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^64\.124\.14\.([1-9]?[0-9]|1[0-1][0-9]|12[0-7]) [OR]
RewriteCond %{REMOTE_ADDR} ^64\.156\.198\.(7[4-9]|80)$ [OR]
RewriteCond %{REMOTE_ADDR} ^64\.237\.(9[6-9]|1[0-1][0-9]|111)\. [OR]
RewriteCond %{REMOTE_ADDR} ^65\.17\.(19[2-9]|2[0-5][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^65\.75\.(1[2-8][0-9]|19[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^65\.110\.(3[2-9]|[4-5][0-9]|6[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^65\.245\.1(2[8-9]|3[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR) ^66\.21\. [OR]
RewriteCond %{REMOTE_ADDR) ^66\.111\.(3[2-9]|[4-5][0-9]|6[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^66\.114\.(6[4-9]|[78][0-9]|9[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^66\.197\.(12[8-9]|1[3-9]|[0-9]|2[0-5][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR) ^66\.181\.(1[6-8][0-9]|19[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR) ^66\.207\.120\.(22[4-9]|2[3-4][0-9]|25[0-5])$ [OR]
RewriteCond %{REMOTE_ADDR) ^66\.207\.(19[2-9]|20[0-9]|21[0-3][5-9]|22[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR) ^66\.235\.([0-9]|[1-5][0-9]|6[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR) ^67\.15\.([1-9]?[0-9]|1[0-6][0-9]|17[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^67\.84\.([1-9]?[0-9]|1[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^67\.159\.([0-9]|[1-2][0-9]|3[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^69\.0\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^69\.9\.(1[6-9][0-9]|191)\. [OR]
RewriteCond %{REMOTE_ADDR} ^69\.31\.([1-9]?[0-9]|1[0-3][0-9]|14[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^69\.56\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^80\.67\.(1[6-9]|[2-3][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^80\.237\.([0-9]|[0-9][0-9]|1[0-9][0-9]|2[0-1][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^81\.3\.11\.(6[4-9]|7[0-9])$ [OR]
RewriteCond %{REMOTE_ADDR} ^81\.169\.(15[7-9]|1[6-7][0-9]|18[0-8])\. [OR]
RewriteCond %{REMOTE_ADDR} ^82\.197\.(19[2-9]|2[0-1][0-9]|22[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^83\.([0-9]|[1-2][0-9]|3[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^84\.16\.(22[4-9]|2[3-5][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^85\.93\.([0-9]|[1-2][0-9]|3[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^193\.23\.(6[4-9]|[7-8][0-9]|9[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^194\.228\.211\.(20[0-7]) [OR]
RewriteCond %{REMOTE_ADDR} ^195\.22\.([0-9]|1[0-8])\. [OR]
RewriteCond %{REMOTE_ADDR} ^195\.159\.(4[6-7])\. [OR]
RewriteCond %{REMOTE_ADDR} ^195\.226\.187\.(3[2-9]|4[0-7]) [OR]
RewriteCond %{REMOTE_ADDR} ^198\.65\.(12[8-9]|1[3-4][0-9]|15[0-9])\. [OR]
RewriteCond %{REMOTE_ADDR) ^202\.(10[0-8])\. [OR]
RewriteCond %{REMOTE_ADDR) ^205\.209\.(12[8-9]|1[3-8][0-9]|19[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR) ^206\.229\.(3[2-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^207\.44\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^209\.73\.228\.1(6[0-9]|7[0-5])$ [OR]
RewriteCond %{REMOTE_ADDR} ^209\.97\.(19[2-9]|2[0-1][0-9]|22[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^209\.152\.(12[8-9]|1[3-5][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^210\.184\.(3[2-9]|[4-8][0-9]|9[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^213\.148\.(23[6-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^216\.185\.(3[2-9]|[4-6][0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^213\.150\.51\.([1-9]?[0-9]|1[0-1][0-9]|12[0-7]) [OR]
RewriteCond %{REMOTE_ADDR} ^213\.215\.133\.(1[6-9]|2[0-9]|3[0-1]) [OR]
RewriteCond %{REMOTE_ADDR} ^213\.239\.(19[2-9]|20[0-7])\. [OR]
RewriteCond %{REMOTE_ADDR} ^216\.93\.(16[0-9]|1[7-8][0-9]|19[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^216\.170\.(12[0-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^216\.203\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^216\.243\.(11[2-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^216\.248\.(12[8-9]|1[3-8][0-9]|19[0-1])\. [OR]
RewriteCond %{REMOTE_ADDR} ^217\.69\.(12[0-4])\. [OR]
RewriteCond %{REMOTE_ADDR} ^217\.71\.(16[0-9]|17[0-5])\. [OR]
RewriteCond %{REMOTE_ADDR} ^217\.115\.(13[8-9]|14[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^217\.116\.37\.(18[4-9]|19[0-1]) [OR]
RewriteCond %{REMOTE_ADDR} ^217\.160\.([0-9]|[1-9][0-9]|10[0-9]|111|20[8-9]|21[0-9]|22[0-3])\. [OR]
RewriteCond %{REMOTE_ADDR} ^217\.169\.121\.([0-9]|1[0-5]) [OR]
RewriteCond %{REMOTE_ADDR} ^217\.172\.(17[4-9]|18[0-6])\. [OR]
RewriteCond %{REMOTE_ADDR} ^218\.(14[4-9]|15[0-9])\. [OR]
RewriteCond %{REMOTE_ADDR} ^219\.(12[8-9]|13[0-7])\. [OR]
RewriteCond %{REMOTE_ADDR} ^221\.(1[6-9]|[2-9][0-9]|10[0-9]|111)\. [OR]
gruß
jan

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Rainer1970
PostRank 6
PostRank 6
Beiträge: 414
Registriert: 13.02.2005, 19:03

Beitrag von Rainer1970 » 26.04.2005, 10:13

Ist das nicht mit Kanonen auf Spatzen schiessen?

hard_pollux
PostRank 9
PostRank 9
Beiträge: 1057
Registriert: 10.03.2004, 12:41

Beitrag von hard_pollux » 26.04.2005, 10:57

Rainer1970,

ich verstehe nicht ganz, worauf Deine Frage abzielt, aber nehme es einfach als gegeben hin, daß es hier Leute gibt, die es gewöhnt sind, mit hunderten von KWs und -kombis in den Top10 zu stehen. Dafür hat man hart gearbeitet, sowas ist nicht gottgegeben, und auch nicht mittels Signaturlinks in einem SEO-Forum zu erreichen.

Und wenn man solche Erfolge auch noch mit unique content bestückt, dann ist man sicherlich nicht über Mitesser erfreut und schützt seine Werke. Da juristische Lösungen zeitraubend und kostenintensiv sind, sind eben technische Schutzvorrichtungen angesagt.

Und Du kannst mir glauben, daß die, die mal so eben 60 MB von meiner Domain lutschen, sich keinen Kopp darüber machen, wer den Traffic bezahlt, auch nicht bei der hundersten Wiederholung.

Und so ganz nebenbei, sofern Du an den Partnerprogrammen, welche Du auf Deinen Sites bewirbst, mitverdienst, dann freue Dich, denn einer meiner Kunden greift darauf zu, und die Leistung meiner Hirnzellen bringt den Euro zum rollen - in diesem Falle dann auch in Deine Richtung.

Und damit sowas funktioniert, ist man eben auf technische Schutzvorrichtungen für seine Projekte angewiesen.
Bei Deinen Projekten werden die Spambots kaum zuschlagen, mit "Klick hier for forward" läßt sich kaum ein Adsenseklick generieren, also brauchst Du Dir da auch keine Gedanken zu machen - nimm' es nicht persönlich.

Ice Man
PostRank 9
PostRank 9
Beiträge: 2477
Registriert: 04.06.2003, 19:16

Beitrag von Ice Man » 26.04.2005, 11:21

Frage, belastet so eine große .htaccess Datei nicht die CPU des Servers ?

xypertronic
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 24.09.2004, 14:06
Wohnort: Leipzig

Beitrag von xypertronic » 27.04.2005, 10:37

hallo,

kann man eure beiden .htaccess zusammenfassen und auf den server laden oder sind da weitere einstellungen/änderungen nötig ?

ich hab zwar sicher nicht so tolle projekte, aber wenn es hilft gewisse leute auszusperren, dann würde ich so eine .htaccess natürlich auch gerne anwenden

ich hatte die tage auf einer domain auch plötzlich den 50 fachen traffic gehabt, kann ja nur son bot gewesen sein

Boa
PostRank 9
PostRank 9
Beiträge: 1170
Registriert: 11.11.2003, 00:19
Wohnort: Bremen

Beitrag von Boa » 27.04.2005, 11:03

Benutzt eigentlich keiner diese Bot-Trap, die Bull hier einmal angesprochen hatte? Das scheint mir sinnvoller zu sein, als sich eine .htaccess zuzulegen, die möglicherweise auch Besucher aussperrt.

SISTRIX
PostRank 9
PostRank 9
Beiträge: 1255
Registriert: 01.09.2003, 20:57
Wohnort: Bonn

Beitrag von SISTRIX » 29.04.2005, 14:27

bull hat geschrieben:

Code: Alles auswählen

Cityreview Robot 
Hat mein Bot sich irgendwann mal falsch benommen? Für Fehlerbeschreibungen wär' ich dankbar.

Gruß Johannes[/code]

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 29.04.2005, 14:30

Nein, hat er nicht, dies ist ja auch, wie ich oben im darüberstehenden Hinweis geschrieben habe, keine .htaccess oder sonstige Blockliste.

Früher hat dieser Bot jedenfalls nach keiner robots.txt gefragt.

SISTRIX
PostRank 9
PostRank 9
Beiträge: 1255
Registriert: 01.09.2003, 20:57
Wohnort: Bonn

Beitrag von SISTRIX » 29.04.2005, 15:33

Das muß dann aber wirklich sehr früher gewesen sein :)

Gruß Johannes
SISTRIX Suchmaschinen Blog
SEO- und SEM-Tools: [url=httpss://tools.sistrix.de/toolbox/?tid=lnk_foren_abk]SISTRIX Toolbox[/url]
Linktausch für PR9 und 10 gesucht!

hard_pollux
PostRank 9
PostRank 9
Beiträge: 1057
Registriert: 10.03.2004, 12:41

Beitrag von hard_pollux » 29.04.2005, 19:30

callimann,
... scheint mir sinnvoller zu sein, als sich eine .htaccess zuzulegen, die möglicherweise auch Besucher aussperrt.
das muß jeder für sich selbst entscheiden.

Ich persönlich halte an einer rigorosen Aussperrung derer fest, welche als mit "krummen Absichten" einzustufen sind.

Z.B. Besucher mit "Lynx": Was will ein Besucher mit "Lynx"? Natürlich spionieren, aus welcher Motivation heraus auch immer. Ergo: Lynx-User aussperren!
Dto. wer über solche Tools https://www.searchengineworld.com/cgi-b ... spider.cgi kommt. Da kommen keine kaufwilligen User her, sondern solche, welche sehen wollen, wie man es gemacht hat (vielleicht zur Abfassung eines detaillierten Spamreports) - und sowas gehört ausgesperrt.

Was möchte ein Bot, na, was wohl? Richtig, Content! Wofür? Auch richtisch, für die Projekte seines Herrn und Meisters! Was macht besagter Herr und Meister mit meinem Content? Auch richtig, er baut damit Adsense-Seiten und themenrelevante Umgebungen für zahlende Werbekunden. Kann dies in meinem Interesse liegen? Natürlich nicht!
Im Interesse eines Suchmaschinenusers kann es auch nicht sein, daß er von einer Suchmaschine zu einer weiteren Suchmaschine gelangt, dort über zwei weitere Klicks erst zu dem Angebot, dessen Content benutzt wurde.

Mittels einer Bot-Trap läßt sich Contentklau erst im Nachhinein erkennen. Welcher Wert sich daraus ableiten läßt, vermag ich nicht nachzuvollziehen - beim besten Willen nicht! Ich will die mißliebigen Elemente vorher erfassen.. Und da das nicht geht, funktioniert meine Logik andersherum: Niemand hat Zugriff, außer diejenigen, welche anhand von aus Statistiken u.ä. gewonnenen Erkenntnissen, als unbedenklich einzustufen sind. Und bislang gibt es auch keine Anhaltspunkte dafür, daß die Umsetzung meiner Einstellung, einen Einbruch wertvoller Besucher herbeiführt.

Gruß
HardPollux

mario
PostRank 10
PostRank 10
Beiträge: 3112
Registriert: 15.08.2003, 05:46

Beitrag von mario » 30.04.2005, 07:32

@hard_pollux

Hallo lieber "G"
Deine Überlegungen sind schon richtig, aber nach welchen Kriterien hast Du Deine "Whitelist" denn begonnen. Erst mal alle aussperren, ok... aber dann nur jene zulassen die es Dir wert sind auf Deine Seiten gelangen zu dürfen. Hm... ich wüsste nicht wie ich damit anfangen würde um mir nicht das Risiko eines Denkfehlers einzuhandeln. Und daß sich nicht alle Spiders und Bots als solche ausgeben ist ja auch bekannt. So müsstest Du ja erst mal die ganze Welt aussperren um dann Google, MSN etc. etc. und Dich selber zuzulassen. Mich würde interessieren nach welchen Kriterien Du das aufgebaut hast. Arbeitest Du mit Deny und den zugelassenen IPs oder nur mit rewrite und den Referern?

Ich persönlich arbeite mit einer "Blacklist" und zwar sowohl mit Deny wie auch mit rewrite, aber eben nicht als "Whitelist"... und es wirkt recht gut.

hard_pollux
PostRank 9
PostRank 9
Beiträge: 1057
Registriert: 10.03.2004, 12:41

Beitrag von hard_pollux » 30.04.2005, 10:20

Hi mario,

eine "Blacklist" habe ich ja auch vorher gehabt. Der erste "Schock" war dann Raubritter "hyro" - über hundert kontrollierte KWs mit Content aus meinen Seiten. Zu den nicht überwachten KWs kann ich nur mutmaßen - mittlerweile finde ich kein Bit mehr auf fremden Seiten, lediglich das, was sich der Eine oder Andere von Google holt, und das stört mich nicht.
Und täglich kommen neue "Jünger" von "hyro" auf den Markt - mit einer Blacklist ist das nicht mehr zu bewältigen, und die ganzen Eigenentwicklungen von irgendwelchen Schwachmaten bergen Gefahren, an die ich garnicht denken mag.

Wie funktioniert nun die "Whitelist":
Der Referrer ist auf jeden Fall eine wesentliche Komponente. Wer die von mir gesetzten Bedingungen nicht erfüllt, bleibt draußen - damit sind alle Bots weg, denn Bots haben keinen Referrer. Zusätzlich sind auch einige bekannte IP-Bereiche und Useragenten gesperrt, welche ich nicht begrüßen möchte, selbst wenn sie die übrigen Bedingungen erfüllen.
Rein kommen also nur Browser, bei denen der Referrer und der Useragent den gesetzten Bedingungen entsprechen und deren IP-Adresse nicht gesperrt ist.
Bots kommen nur rein, wenn Useragent oder IP-Adresse ok. Hier liegt zwar eine geringe Schwachstelle, da sich der Useragent fälschen läßt, aber wer den Useragenten bewußt z.B. auf den von Google setzt, um an Content zu gelangen, der ihm ansonsten verwehrt bliebe, der sollte das vorsorglich nur über außereuropäische Server bewerkstelligen.
Grundsätzlich könnte ich die Freigabe für gewünschte Bots auch nur über den IP-Bereich steuern, aber ich lasse das mal so, bis sich entsprechender Handlungsbedarf ergibt.
Es kommen also "rewrite" und "deny/allow" zum Tragen.
Denkfehler sind natürlich nicht ausgeschlossen, zumal ich kein Experte für sowas bin, aber bislang bringt mir der Googlebot noch jeden Morgen die Zeitung. Er freut sich sicherlich über den unique content.
Die neue htaccess läuft aus Angst vor möglichen Fehlern, auch noch nicht auf allen Domains im Rootverzeichnis, aber da, wo sie läuft, leistet sie hervorragende Dienste, und mir kommt da auch gerade die Idee einer Gegenprobe, so bekomme ich einen Überblick über die abgewiesenen Besucher.

Alle Kollegen, die mir eine PN zu meiner neuen htacces geschickt haben, und denen ich noch nicht geantwortet habe, mögen da Nachsicht üben.
Grundsätzlich bin ich der Auffassung daß ich kein kostenloses "Fertigfutter" verteile - insbesondere deshalb nicht, weil ich immer wieder beobachte, auch in Zusammenhängen, die weder etwas mit mir oder dem Internet zu tun haben, daß Geschenken oder sonstwie kostenlos erlangten Dingen, nicht die erforderliche Wertschätzung beigemessen wird, von einer nicht akzeptablen Anspruchshaltung, wie ich sie küzlich auch in diesem Forum erfahren mußte, mal ganz zu schweigen.
Mit den Anregungen und Hinweisen, die ich bislang geliefert habe, sollte jeder, der diesbezüglich mindestens den gleichen geringen Wissensstand hat wie ich, in der Lage sein, eine Eigenkreation zu basteln (Und nocheinmal: Je unterschiedlicher die Bedingungen der jeweiligen Kreationen, um so orientierunsloser werden die Betreiber der unerwünschten Bots, wenn ihnen neuer Content verwehrt bleibt.)
Wer das nicht kann, für den sind Basteleien an einer htaccess ein nicht kalkulierbares Risiko, und derjenige sollte die Finger davonlassen. Und diese Warnung ist sehr, sehr ernst zu nehmen. Ich selbst hatte mir bei der Entwicklung eine "ganz tolle" Schleife gebaut, die u.U. endlos Traffic generiert. Und aufgefallen ist es mir nur, weil ich jedes ein- und ausgehende Bit überwache - also vorsichtig !!!

Gruß
HardPollux

mario
PostRank 10
PostRank 10
Beiträge: 3112
Registriert: 15.08.2003, 05:46

Beitrag von mario » 30.04.2005, 10:51

Hallo lieber Hardy :lol: (HP)

ja so ungefähr habe ich mir Deine Überlegungen vorgestellt. Eine Whitelist ist natürlich immer sehr viel wirkungsvoller,aber auch gefährlicher. Man muss dann halt gut aufpassen, was genau passiert, was Du ja offenbar auch tust. Ich bleibe im Moment bei meiner Blacklist, die ich vor kurzem mit vielen guten deny ergänzen durfte. Alles nur bekannte und untersuchte ips.

Und nun noch ein paar Bemerkungen zu Deinem obigen Posting:


<denn Bots haben keinen Referrer
... so fern es anständige unmanpulierte sind :wink:

<Rein kommen also nur Browser, bei denen der Referrer und der Useragent den gesetzten Bedingungen entsprechen
... so ein "Bötchen=bot" läuft schnell mal als maskiertes Fräulein rum :lol:

<der sollte das vorsorglich nur über außereuropäische Server bewerkstelligen.
... und genau da liegt die Crux

liebe Grüsse aus dem stahlblauen Südspanien sendet Dir
Mario

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag