Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

.htaccess - Bots (Googlebot) aussperren. Brauche HILFE !!!

Ajax, Hijax, Microformats, RDF, Markup, HTML, PHP, CSS, MySQL, htaccess, robots.txt, CGI, Java, Javascript usw.
monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 04.12.2010, 02:27

Ich möchte gerne für ein bestimmtes Verzeichnis den Zugriff von diversen Bots sperren. Dafür habe ich mir unten angehängte .htaccess Datei zusammen geschustert und in das entsprechende Verzeichnis geladen.

Allerdings sperrt die Datei nicht so wie sie sollte. Es kommt ein 500er Fehler, Internal Server Error.

Wo habe ich denn den Fehler gemacht? :oops:

Code: Alles auswählen

RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} ^WebCopy.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetcher.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebMirror.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^fetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yandex.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^.goo.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^msnbot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^GeoHasher.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crawler.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^MLBot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^info_bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yahoo.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yahoo!.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Linguee_Bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^seexie.com_bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Exabot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^DoubleVerify.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Scoutjet.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^www.scoutjet.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Jakarta.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^PEAR.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^dnsinspect.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^DNSInspect.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^www.dnsinspector.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^robotgenius.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Purebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Python-urllib.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Spider.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^DotBot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget/1.11.4.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^CFG_SPIDER_USER_AGENT.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Java.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver-web.archive.org.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html).* [OR]
RewriteCond %{HTTP_USER_AGENT} ^JMediapartners-Google/2.1.* [OR] 
RewriteCond %{HTTP_USER_AGENT} ^msnbot/1.0 (+http://search.msn.com/msnbot.htm).* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp).* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/4.0 compatible ZyBorg/1.0 (wn-14.zyborg@looksmart.net; http://www.WISEnutbot.com).* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Java.*
RewriteRule ^/.* - [forbidden]


Danke fürs drüber schauen! Ich hoffe ihr könnt mir helfen
Zuletzt geändert von monezmo am 04.12.2010, 02:31, insgesamt 1-mal geändert.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

catcat
PostRank 10
PostRank 10
Beiträge: 10292
Registriert: 02.08.2006, 13:21
Wohnort: Litauen

Beitrag von catcat » 04.12.2010, 02:30

Öh... wenn Du Dein Zeugs eh nicht öffentlich verfügbar haben willst, warum machst Du dann nicht gleich ne PW-Abfrage auf Deiner Site?

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 04.12.2010, 02:32

Wow das ging ja schnell ;)

Es geht nur um ein einzelnes Verzeichnis, dieses soll für menschliche User zugänglich sein aber für einige Bots nicht.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Hirnhamster
PostRank 10
PostRank 10
Beiträge: 2997
Registriert: 23.02.2008, 12:56

Beitrag von Hirnhamster » 04.12.2010, 02:53

Sowas macht man über die robots.txt - nicht per .htaccess 0o
Texte/Content schnell und effizient en masse produzieren » Article Wizard «

SEO Grundlagen: SEO Tutorial --- Linkbuilding Fallstudie --- Find me on Google+ and Twitter

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 04.12.2010, 10:34

Es gibt genug Beispiele in denen die robots.txt ignoriert wurde. Über die .htaccess ist es wesentlich sicherer, da serverseitig geblockt wird.

Es wäre schön wenn mir jemand bei meinem Problem helfen kann.

Gruß
mon

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 07.12.2010, 10:59

Hat denn keiner eine Ahnung wo der Fehler liegt?

Das muss doch schon mal jemand von euch gemacht haben ;)

catcat
PostRank 10
PostRank 10
Beiträge: 10292
Registriert: 02.08.2006, 13:21
Wohnort: Litauen

Beitrag von catcat » 07.12.2010, 11:21

monezmo hat geschrieben:Hat denn keiner eine Ahnung wo der Fehler liegt?

Das muss doch schon mal jemand von euch gemacht haben ;)
Such doch mal nach https://www.bot-trap.de/ .
Das lässt sich auch umbasteln für Deine Zwecke.

dudu78
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 24.02.2009, 17:06

Beitrag von dudu78 » 07.12.2010, 12:19

Da dir noch keiner geantwortet hat, hier eine kleine Liste wie mit "bösen Bots" mittels .htaccess umgegangen werden kann:

.htaccess-Datei im Zielverzeichniss setzen. Boteinträge können natürlich beliebig erweitert und/oder entfernt werden:


### START .HTACCESS DATEI ###

ErrorDocument 403 /403.htm

# IF THE UA STARTS WITH THESE
SetEnvIfNoCase ^User-Agent$ .*(aesop_com_spiderman|alexibot|backweb|bandit|batchftp|bigfoot) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(black.?hole|blackwidow|blowfish|botalot|buddy|builtbottough|bullseye) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(cheesebot|cherrypicker|chinaclaw|collector|copier|copyrightcheck) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(cosmos|crescent|curl|custo|da|diibot|disco|dittospyder|dragonfly) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(drip|easydl|ebingbong|ecatch|eirgrabber|emailcollector|emailsiphon) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(emailwolf|erocrawler|exabot|eyenetie|filehound|flashget|flunky) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(frontpage|getright|getweb|go.?zilla|go-ahead-got-it|gotit|grabnet) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(grafula|harvest|hloader|hmview|httplib|httrack|humanlinks|ilsebot) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(infonavirobot|infotekies|intelliseek|interget|iria|jennybot|jetcar) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(joc|justview|jyxobot|kenjin|keyword|larbin|leechftp|lexibot|lftp|libweb) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(likse|linkscan|linkwalker|lnspiderguy|lwp|magnet|mag-net|markwatch) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(mata.?hari|memo|microsoft.?url|midown.?tool|miixpc|mirror|missigua) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(mister.?pix|moget|mozilla.?newt|nameprotect|navroad|backdoorbot|nearsite) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(net.?vampire|netants|netcraft|netmechanic|netspider|nextgensearchbot) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(attach|nicerspro|nimblecrawler|npbot|octopus|offline.?explorer) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(offline.?navigator|openfind|outfoxbot|pagegrabber|papa|pavuk) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(pcbrowser|php.?version.?tracker|pockey|propowerbot|prowebwalker) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(psbot|pump|queryn|recorder|realdownload|reaper|reget|true_robot) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(repomonkey|rma|internetseer|sitesnagger|siphon|slysearch|smartdownload) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(snake|snapbot|snoopy|sogou|spacebison|spankbot|spanner|sqworm|superbot) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(superhttp|surfbot|asterias|suzuran|szukacz|takeout|teleport) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(telesoft|the.?intraformant|thenomad|tighttwatbot|titan|urldispatcher) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(turingos|turnitinbot|urly.?warning|vacuum|vci|voideye|whacker) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(widow|wisenutbot|wwwoffle|xaldon|xenu|zeus|zyborg|anonymouse) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*web(zip|emaile|enhancer|fetch|go.?is|auto|bandit|clip|copier|master|reaper|sauger|site.?quester|whack) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(craftbot|download|extract|stripper|sucker|ninja|clshttp|webspider|leacher|collector|grabber|webpictures) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(libwww-perl|aesop_com_spiderman) HTTP_SAFE_BADBOT
Deny from env=HTTP_SAFE_BADBOT

### ENDE .HTACCESS DATEI ###

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 08.12.2010, 15:15

Danke für die Info @Dudu! Diese .htaccess Datei ruft keinen 500er Fehler hervor!

Habe nur zwei Fragen:

1. Gibt es eine Möglichkeit zu testen ob das ganze funktioniert, also quasi als Bot die Seite besuchen?

2. Kann es sein das durch diese Datei die Ladegeschwindigkeit der im jeweiligen Verzeichnis liegenden Dateien reduziert wird? Mit der .htaccess kam mir der Ladevorgang ca. doppelt so lange vor wie ohne *konfus*

dudu78
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 24.02.2009, 17:06

Beitrag von dudu78 » 09.12.2010, 09:30

Wegen der Ladezeiten kann ich dir leider nicht helfen... Müsste man sicherlich testen. Einen Einfluss auf die Geschwindigkeit wird es sicher haben, aber ob dieser überhaupt merklich ist wage ich zu bezweifeln.

Die Liste würde ich auch so nicht in vollständiger Form laufen lassen, sondern eben nur die Bots sperren die du ausgesperrt haben möchtest. Die obige Liste bezieht sich stark auf Content-Scraper, etc. zusätzlich habe ich den W3C Validator ausgesperrt.

Einfach mal mit https://validator.w3.org/ deine URL aufrufen und es sollte eine Fehlermeldung erscheinen ;)


dudu

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 09.12.2010, 11:38

Super dudu78, ich danke dir wirklich vielmals für deinen Support!

Um bei deiner Version einen Bot hinzuzufügen muss man nur z.B. alexibot rausnehmen und den namen des anderen bots reinschreiben nehme ich an.

Damit ich das ganze ein bischen besser verstehe wäre es prima von Dir wenn Du mir noch kurz folgende zwei Fragen erkläten könntest:

Gibt es auch die Möglichkeit googleBot, google.com etc. auf einmal ausperren. beispielsweise indem mal alle UserAgents mit goo sperrt?

Was bedeutet das .? wie bei "mata.?hari" ?


bzgl. Content-Scraper hätte ich auch gerne ausgesperrt, seitdem ich durch einen Insider weiss wie die schwarze Szene arbeitet war mir das sehr wichtig. Allerdings hat mir mein Bekannter auch verraten das ein Schutz dagegen kaum möglich ist. Wir können nur die Anfänger aussperren, der Kampf gegen die Profis ist schon verloren.

dudu78
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 24.02.2009, 17:06

Beitrag von dudu78 » 09.12.2010, 12:22

uhm, ja.

gegen diejenigen, die wirklich wissen wie man content absaugt, kannst du nicht wirklich was tun. ein kleiner schutz gegen script-kiddies bietet es jedoch allemal. es gibt genug script-kiddies die sich tools herunterladen und massig content saugen.


.? bedeutet:

. = irgendein zeichen der anstelle des punktes da steht
? = das zeichen davor ist optional

also:
mata.?hari = mataXhari od. mataYhari od. mataZhari od. nur marahari (ohne ein zeichen dazwischen)

um beispielsweise "googleBot" auszusperren:
SetEnvIfNoCase ^User-Agent$ .*(googlebot|googlebot-mobile|adsbot-google|googlebot-image|mediapartners-google|) HTTP_SAFE_BADBOT

mit wildcards wie "goo*" würde ich eher vorsichtig sein, da dies mit regex eventuell etwas tricky sein kann.

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 09.12.2010, 12:31

:D Ich danke Dir!

Hatte es eben schonmal mit googlebot probiert und es funktioniert prima. Wer schnell testen möchte ob das ganze bei Ihm funktioniert:

https://www.smart-it-consulting.com/int ... /index.htm

Jetzt habe ich noch eine schöne google freundliche Error Page gemacht die alle blöden Bots angezeigt bekommen und alles ist bestens :)

Vielen Dank nochmal!

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 09.12.2010, 23:05

Über die .htaccess ist es wesentlich sicherer, da serverseitig geblockt wird.
Nicht, wenn Du den User-Agent benutzt. Dann ist die robots.txt genau so zuverlässig, wie die .htaccess. Du schießt mit Kanonen auf Spatzen, und mit Verlaub: Du schießt trotzdem daneben.
:roll:

monezmo
PostRank 4
PostRank 4
Beiträge: 160
Registriert: 16.08.2010, 20:30

Beitrag von monezmo » 10.12.2010, 09:49

"Nicht, wenn Du den User-Agent benutzt. Dann ist die robots.txt genau so zuverlässig, wie die .htaccess."

Wie meinst du das wenn ich den user-agent benutze?
Bezüglich des daneben schiessens, gibt es denn eine bessere Möglichkeit?

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag