Seite 1 von 1

alle bots ausschließen

Verfasst: 06.08.2005, 11:55
von rosine
hallo,
meine website wird so massiv von bots besucht, das ich dahinter click-spam vermute. (seite ist kaum in suchmaschinen gelistet, läuft häuftsächlich über PPC. hatte eigentlich immer vergleichsweise wenige zugriffe. habe gelesen, dass fiese bots auch PPC-clicks erzeugen können)

um das irgendwie einzuschränken, dachte ich mir, ich könnte alle bots ausschließen, indem ich alle aussperre (a-z, 0-9. A-Z) und danach nur für die, denen ich wirklich vertraue, eine positivliste definiere.

also etwa so:

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]+
RewriteCond %{HTTP_USER_AGENT} !^Googlebot
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteRule ^.*$ - [F]

da dies meine erste richte htaccess ist, die sich mit dem rewrite-befehl und den bots befasst, wäre ich froh, wenn jemand der sich damit auskennt, mal seine meinung dazu sagt, bevor ich sie hochlade.

was stimmt an dem script noch nicht? was muss vor und nach den RewriteCond noch rein - RewriteEngine on oder so?

vielen dank,

bea
(deren werbekampgne für heimtierbedarf explodiert ist)

Verfasst:
von

alle bots ausschließen

Verfasst: 06.08.2005, 12:41
von Chris2005

Code: Alles auswählen

RewriteEngine on
als erste Zeile einfügen.

und hinter

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+ 
noch ein [OR] einfügen.

Testen kannst Du das mit www.wannabrowser.com .

Aber es gibt auch "gefakte" Google-Bots. Aber Gott sei Dank nicht so viele.

Verfasst: 06.08.2005, 13:21
von rosine
es wird immer witziger!

ich kontrolliere gerade meine log-files und
JETZT DAS MERKWÜRDIGE:

mein hauptbesucher-bot, behauptet
Mozilla/5.0 (compartible;Yahoo) zu sein. man beachte die schreibweise! nicht
Mozilla/5.0 (compatible;Yahoo).
der tut doch nur so, als sei der der yahoo-Slurp, oder?

und noch eine verständnisfrage habe ich:
wenn der jeweilige bot den rausschmiss aus der htaccess erhalten hat, dann hat er ja schon den PPC-klick gemacht. kann er danach wiederkommen? und 500 mal am tag die 403-seite aufrufen für teures werbegeld?

oder fliege ich dann jeweils aud dem index des bots?

danke, beate

Verfasst:
von

alle bots ausschließen

Verfasst: 06.08.2005, 13:55
von Chris2005
Mozilla/5.0 (compartible;Yahoo)
Definitiv SPAM-Bot... IP-Adresse?
und noch eine verständnisfrage habe ich:
wenn der jeweilige bot den rausschmiss aus der htaccess erhalten hat, dann hat er ja schon den PPC-klick gemacht. kann er danach wiederkommen? und 500 mal am tag die 403-seite aufrufen für teures werbegeld?
Der Content der dahinterliegenden Seite wird bei einem 403er nicht ausgeführt. Da der PPC-Klick irgendeine Funktion ausführen muss, damit der Klick gezählt wird, denke ich nicht, dass bei einem 403er ein Klick gezählt wird.

Kannst Du mir mal eine Beispiel-URL per PN schicken?

edit: typo

alle bots ausschließen

Verfasst: 06.08.2005, 17:02
von rosine
ich habe zum auslesen mescalero (seit drei tagen) und bin noch etwas ungeschickt. finde irgendwie die IP adresse des Bots nicht.
nur lj1234.inktomisearch.com - der zahlenbereich 1234 ändert sich dauernd.

ich dachte die ganze zeit, yahoo spinnt sich halt auf meiner seite aus, und hab nicht weiter nachgefragt. wenn das der spambot ist, dann haben sich die letzen schlaflosen nächte endlich rentiert!

meine seiten sind gerade alle offline (wegen panik)

alle bots ausschließen

Verfasst: 06.08.2005, 17:29
von net(t)worker
lj1234.inktomisearch.com ist normalerweise der Yahoo Slurp

werf doch mal ein Blick direkt in das logfile... dort findest du die genauen Angaben, der Slurp sieht so aus:
Mozilla/5.0 (compatible; Yahoo! Slurp; https://help.yahoo.com/help/us/ysearch/slurp)

der holt sich seit ein paar Tagen bei mir auch alle paar Minuten ein paar Seiten...

das zusätzliche r kann auch ein Fehler in der Analysesoftware sein, daher solltest du wirklich mal selber in die Logfiles schauen..

alle bots ausschließen

Verfasst: 06.08.2005, 20:01
von rosine
ok, schade, das wäre zu einfach gewesen. .. das r hat mescalero reingebastelt.

irgendwie habe ich mmer eine völlig neue statitik vor mir, wenn ich das ding in einem anderen prog öffne. ich werde noch warnsinnig dadran!

ich habe es jetzt im txt-editor auf und frage euch noch dieses hier:
wenn ich meine 1und1statitikauswertung aufrufe, war der inktomi-bot ca 1000 mal und in der mescalero-auswertung 200 mal.
und warum sind in beiden statitiken (wenn auch mit vershciedenen zahlen) AOL-proxis ca 15-20 % der besucher?
AOL ist doch kacke. was soll das mit den blöden proxy, die man nicht auslesen kann. und warum so viele? so viele AOL-user gibt es auf meinen anderen seiten nicht.

alle bots ausschließen

Verfasst: 06.08.2005, 20:12
von net(t)worker
Bei AOL muss der User zwangsweise einen Proxy nehmen, und dieser kann sich auch bei jedem Seitenaufruf ändern... also kann ein user im krassesten Fall bei jedem Seitenaufruf einen anderen Proxy verwenden...

bei der Auswertung der Besuche eines User/Bot können auch mehrere Seitenaufrufe zu einem Besuch zusammengefasst werden... wie viel zeit zwischen den Seitenaufrufen liegen darf kann auch unterschiedlich sein... auch können noch andere unterschiedliche Parameter eine solche Differenz ermöglichen.. Details solltest du aber mal beim Hersteller/Support der jeweiligen Software erfragen.

alle bots ausschließen

Verfasst: 06.08.2005, 20:36
von rosine
nachtrag: hier noch alle unidentifizierten zugriffe.

Browser - Zugriffe:

ActiveBookmark 1.1 - 1
BlitzBOT@tricus.com (Mozilla compatible) - 14
Dumbot(version 0.1 beta - https://www.dumbfind.com/dumbot.html) - 2
Gigabot/2.0 - 6
Mozilla 4 - 108
Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +https://sp.ask.com/docs/about/tech_crawling.html) - 3
Mozilla/4.5 [en] (Win98; I) - 1
Mozilla/4.61 [de]C-CCK-MCD (OS/2; U) - 22
Mozilla/5.0 (000000000; 0; 000 000 00 0; 00000) 00000000000000000 0000000 0000 000000 0000000000 - 17
Mozilla/5.0 (OS/2; U; Warp 4.5; de-DE; rv:1.3) Gecko/20030616 - 16
Mozilla/5.0 (OS/2; U; Warp 4.5; de-DE; rv:1.4.1) Gecko/20040707 TCODEUTIWB202__002 - 15
Mozilla/5.0 (OS/2; U; Warp 4.5; de-DE; rv:1.6) Gecko/20040603 - 16
Mozilla/5.0 (X11; U; Linux i686; en-US; rv 0.9.2) ; ENA - 16
Mozilla/5.0 (X11; U; Linux x86_64; rv:1.7.8) Gecko/20050514 Debian/1.7.8-1 - 16
Mozilla/5.0 (compatible; nextthing.org/1.0; +https://www.nextthing.org/bot) - 1
NutchCVS/0.06-dev (Nutch; https://www.nutch.org/docs/en/bot.html; nutch-agent@lists.sourceforge.net) - 6
OmniExplorer_Bot/3.06d (+https://www.omni-explorer.com) WorldIndexer - 1
Onet.pl SA, https://szukaj.onet.pl - 1
SquidClamAV_Redirector 1.6.3 - 17
SquidClamAV_Redirector 1.6 - 14
TheSuBot/0.1 (www.thesubot.de) - 4
User-Agent: User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) - 1
aipbot/1.0 (aipbot; https://www.aipbot.com; aipbot@aipbot.com) - 2
appie 1.1 (www.walhello.com) - 6
cfetch/1.0 - 3
curl/7.13.1 (powerpc-apple-darwin8.0) libcurl/7.13.1 OpenSSL/0.9.7b zlib/1.2.2 - 1
libwww-perl/5.803 - 12
sohu-search - 2

alle bots ausschließen

Verfasst: 06.08.2005, 20:42
von net(t)worker
wie wäre es mal mit der Suchfunktion.... es gibt hier diverse Bot-Listen etc... teilweise ist bei denen unidentifizierten Usern auch eine URL im Useragent angegeben, dort findet man dann üblicherweise Informationen zu dem jeweiligen Bot...

alle bots ausschließen

Verfasst: 07.08.2005, 12:54
von Freeboarder
Also ich weiss ja nicht, aber so wie du das machen willst, sperrst du da doch auch alle richtigen besucher aus! Den jeder Besucher sendet irgendeinen UA oder einen Leeren! Und du willst ja bei allen useragent die 403 anzeigen.

Trotzdem zum sperren aller auseragent und leerem UA machst das so:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^[.]* 
RewriteCond %{HTTP_USER_AGENT} !^Googlebot 
RewriteCond %{HTTP_USER_AGENT} !^msnbot 
RewriteRule ^.*$ - [F] 
Zum Speeren aller ausser Leeren UA:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^[.]+ 
RewriteCond %{HTTP_USER_AGENT} !^Googlebot 
RewriteCond %{HTTP_USER_AGENT} !^msnbot 
RewriteRule ^.*$ - [F] 
MfG
FB :P