Ideale .htaccess Datei

Beitrag von **domainsnake** » 08.11.2009, 00:50

Hi All,
also mitlerweile habe ich ja herausgefunden das der Megatraffic von Bots hervorgerufen wird. Daraufhin habe ich in der robots.txt erstmal nur den 5 bekannten Suchmaschinen den Zugriff erlaubt. Sieht so aus:

User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow:
User-agent: Mediapartners-Google
Disallow:
User-agent: Mediapartners-Google/2.1
Disallow:
User-agent: MSNBot
Disallow:
Crawl-delay: 20
User-agent: Slurp
Disallow:
Crawl-delay: 20
User-agent: msnbot/1.0
Disallow:
User-agent: Yandex bot
Disallow:
User-agent: Ask
Disallow:
User-agent: Yahoo
Disallow:
User-agent: *
Disallow: /

Scheint auch zu funktionieren, denn leider werden mir in Parallels Confixx nun keine Statistiken mehr angezeigt.

Weiß jemand Rat wie ich das machen kann? Vielleicht so?

User-agent: Parrallels Confixx
Disallow:

Hab da leider keine Ahnung, wie ichs machen muß. Aber das nur nebenbei zur robots.txt, denn mein Hauptaugenmerk liegt auf der .htaccess Ich habe viele Varianten gefunden, und möchte die in einer Datei kombinieren, falls das machbar ist. Als erstes möchte ich manuell bestimmte Ips sperren können. So sah der Abschnitt aus:

Order Allow,Deny
Allow from all
Deny from 64.239.138.76 # referrer spambot
Deny from 66.6.223.190 # referrer spambot
Deny from 62.3.66.231 # bad bot
Deny from 217.67.244.33 # referrer spambot (sexnet24.tv)

Desweiteren würde ich gerne eine Spamliste mit einfügen. Sah so aus.

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^BatchFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlowFish [OR]
RewriteCond %{HTTP_USER_AGENT} ^BotALot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [OR]
RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^contype [OR]
RewriteCond %{HTTP_USER_AGENT} ^Copier [OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR]
RewriteCond %{HTTP_USER_AGENT} ^cosmos [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo\Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\Wonder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Foobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetSmart [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR]
RewriteCond %{HTTP_USER_AGENT} ^gotit [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^humanlinks [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^iCCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^ichiro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^InfoNaviRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^InsurancoBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Iria [OR]
RewriteCond %{HTTP_USER_AGENT} ^JennyBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Kenjin\.Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp [OR]
RewriteCond %{HTTP_USER_AGENT} ^likse [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkextractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkScan\/8\.1a\.Unix [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Magnet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mag-Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Memo [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^oegp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^QueryN.Metasearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Recorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^RMA [OR]
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snake [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Whacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]

RewriteRule ^.* - [F]

Dann würde ich gerne meine Bildverzeichnisse gegen Bilderklau sichern.

RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www\.)?anglerzeitung\.de(/.*)?$ [NC]

RewriteCond %{HTTP_REFERER} !search [NC]
RewriteCond %{HTTP_REFERER} !google [NC]
RewriteCond %{HTTP_REFERER} !yahoo [NC]
RewriteCond %{HTTP_REFERER} !bing [NC]

RewriteRule \.(gif|jpg|png|pdf|GIF|JPG|PNG|PDF)$ https://www.anglerzeitung.de/__extern/geklaut.gif [R,L]

Und dies hier stand ganz ürsprünglich in meiner htaccess Datei:

RewriteEngine On
# RewriteBase /
RewriteRule ^([0-9]*)-([0-9]*)- https://www.anglerzeitung.de/index.php? ... ERY_STRING}

ErrorDocument 404 https://www.anglerzeitung.de/
ErrorDocument 403 https://www.anglerzeitung.de/
ErrorDocument 500 https://www.anglerzeitung.de/

Also meine grosse Preisfrage, wie kann ich daraus eine funktionierende .htaccess Datei machen, welche funktioniert und alle Bestandteile erhält. ??? Hab zwar schon selber rumprobiert, komm aber nicht weiter. Vielleicht kann jemand helfen und eventuell ist so eine Datei ja auch für andere User hier von Nutzen. Danke schonmal und viele Grüße.
Marco

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Mork vom Ork** » 08.11.2009, 11:35

Vorneweg: Das hier …

Bild

… kann nicht wirklich dein Ernst sein. Über 900k an Daten und fast eine halbe Minute Ladezeit (die sich wohlgemerkt zu einem Gutteil alleine daraus ergibt, dass so viele Einzelposten abgearbeitet werden müssen). Die Masse, von der Zeit gar nicht zu reden, ist schon für sich jenseits von Gut und Böse, und wenn ich mir dann noch anschaue, dass du für die Übertragung von bummelig 8000 Zeichen Text 930.000 Bytes durch die Leitung schiebst … nee, wirklich.

Wenn du irgendwo anfangen willst, das Übertragungsvolumen zu verringern, dann hier.
Wirf insbesondere die ganzen Füllbilder raus (Partner, Feedback, Quicknavi, Gewinnspiel, Buchvorschlag, etc), die, außer laut BUNT! zu schreien, keine nennenswerte Funktion haben.
Grafiken solltest du tunlichst optimiert speichern, dein quader.gif Bild

ist fast sechsmal so groß wie für Bild

notwendig wäre. Es sind zwar nur ein paar Hundert Bytes, aber Kleinvieh macht auch Mist, insbesondere in einer Herde von 178 Stück.
Die Bilder in der Mitte (Fischrekorde, Rolle zu verkaufen, etc) sehen grausig aus, JPEG ist für Text ungeeignet. Speichere solche Bilder ohne Text, auch damit kannst du wieder überflüssiges Volumen einsparen.

domainsnake hat geschrieben:Daraufhin habe ich in der robots.txt erstmal nur den 5 bekannten Suchmaschinen den Zugriff erlaubt.
[…]
leider werden mir in Parallels Confixx nun keine Statistiken mehr angezeigt. :( Weiß jemand Rat wie ich das machen kann? Vielleicht so?

User-agent: Parrallels Confixx
Disallow:

Confixx wird auf deine Seiten kaum mit einem Bot zugreifen (und falls doch, sind das vermutlich überflüssige Statistiken). Da musst du irgendwas anderes verbockt haben.

Order Allow,Deny
Allow from all
Deny from 64.239.138.76 # referrer spambot

Technisch richtig, muss aber gepflegt werden. IPs ändern sich, pöse Puben kommen und gehen. Wenn du da wochenlang nicht nachschaust, sowohl, ob es neue Wichte gibt, als auch, ob alte Wichte noch auftreten, ist das überflüssige Liebesmüh'.

Desweiteren würde ich gerne eine Spamliste mit einfügen. Sah so aus.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
[weitere 123 belanglose Namen]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]

RewriteRule ^.* - [F]

Die .htaccess wird bei jedem einzelnen Zugriff neu eingelesen. Wenn deine Startseite aus 100 einzelnen URLs besteht (was selbst bei aktiviertem Cache gut möglich ist, siehe oben), dann muss der ganze Müll hundertmal eingelesen werden und bis deine Seite aufgebaut ist, hat der Server 12.500 mal dieselbe Browserkennung geprüft. Das ist Irrsinn. Punkt.

Weißt du überhaupt, ob alle diese Bots bei dir vorbeischauen, es sieht so aus, als wenn du die Liste einfach irgendwoher kopiert hast? Am Ende verursachst du mit so einer Aktion mehr Last auf dem Server als durch diese paar Bots erzeugt wird. Ich behaupte mal glattweg, dass die tatsächliche Bot-Last gleich Null ist, falls du die Liste wirklich ohne Prüfung übernommen hast.

Es kommt noch hinzu, dass diese Namen wie ein Pups im Orkan sind. Das ist Spielzeug, jederzeit änderbar und wirklich schlaue Leute übermitteln einfach die Kennung eines normalen Browsers, anstatt laut "Ich bin ein Bot, lass' mich rein!" zu grölen.

Langer Rede, kurzer Sinn: Bevor du irgendwas aussperrst, analysiere erstmal dein Zugriffsprotokoll und sperre dann per Deny die paar IP-Adressen, die tatsächlich bei dir Amok laufen.

Dann würde ich gerne meine Bildverzeichnisse gegen Bilderklau sichern.

RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www\.)?anglerzeitung\.de(/.*)?$ [NC]

RewriteCond %{HTTP_REFERER} !search [NC]
RewriteCond %{HTTP_REFERER} !google [NC]
RewriteCond %{HTTP_REFERER} !yahoo [NC]
RewriteCond %{HTTP_REFERER} !bing [NC]

RewriteRule \.(gif|jpg|png|pdf|GIF|JPG|PNG|PDF)$ https://www.anglerzeitung.de/__extern/geklaut.gif [R,L]

Für meinen Geschmack etwas aufwendig, zudem täte ich denen ganz einfach ein Forbidden (RewriteRule-Option F, siehe Anleitung) vorsetzen und kein anderes Bild, aber man kann's so machen.

ErrorDocument 404 https://www.anglerzeitung.de/
ErrorDocument 403 https://www.anglerzeitung.de/
ErrorDocument 500 https://www.anglerzeitung.de/

Das ist Bockmist. Du unterdrückst damit wichtige Fehlermeldungen. Insbesondere das Unterdrücken des 404 hat dazu geführt, dass Suchmaschinen-Bots jetzt noch mehr Abfragen machen müssen, um herauszufinden, ob eine Seite tatsächlich nicht vorhanden ist oder wirklich umgeleitet werden soll.

Beitrag von **domainsnake** » 08.11.2009, 15:10

Ja, ich stimme natürlich zu bezüglich der Ladezeit. Da hab ich auch schon intensiv dran gearbeitet. Letztlich hab ich 3/4 der Dateien schon ausgetauscht durch stärker optimierte Bilder, statt jpg gif Bilder etc. Dabei bin ich in der Reihenfolge vorgegangen wie die Größe der Bilder ist. Die vielen "dicken" Klopse hab ich bereits ausgetauscht. Etliche Kleinere sind schon fertig, müssen nur noch hochgeladen werden. Programmiertechnisch stehen auch noch Optimierungen auf der Liste. Memberbilder werden zwar beispielsweise skaliert aber (noch) nicht automatisch komprimiert. Im Augenblick sind da tatsächlich noch einige Dinger drin, wo man sich die Augen reibt. Besagtes Beispiel von dir zum Beispiel. Weiß auch nicht was mich bei einigen Grafiken geritten hat. Da kann ich ja froh sein, daß du das absolut schlimmste Beispiel nicht gefunden hast.

Eine 2Pixel Grafik in schwarz/weiss mit mehreren kb. Auweia. Aber wie gesagt sind fertig und müssen nur noch hochgeladen werden. Wird auf dem Grafiksektor insgesamt nicht sooo viel mehr bringen aber wie du schon sagst, Kleinvieh macht auch Mist. So einen Check mit Anzeige der Ladezeit find ich übrigens für die Einzelbestandteile sehr interessant. Was ist das für ein Ladezeit Checkerprogramm?

Die Anzeigen von Amazon hab ich gestern erst reingemacht, weil ich vom Ebay Partnerprogramm von meiner Anmeldung schon seit über 2 Wochen nix mehr gehört hab. Vielleicht auch ganz gut so, weil der Verdienst bei Ebay ja eh nicht mehr gut sein soll, aber das ist ein anderes Thema. Auf jeden Fall sind die Ladezeit Werte von Amazon ja krass, im Gegensatz zu den anderen Dingen. Aber was ausser Amazon wieder runterschmeissen kann man da machen?

Viel Optimierungspotenzial liegt in den ganzen Scripten, CSS, Html und so. Allein das jquery lutscht 120kb und so weiter. Das steht aber auch alles noch auf der Liste. Übrigens auch diese Füllbilder, da wo momentan oben noch Text in der jpg mit drin ist. Hab auch festgestellt das es zuviel kb frisst, aber weil das programmiert ist, kann ich das net selber machen und deswegen dauert es. Der Buchvorschlag kommt raus, der steht momentan nur Dummymässig da.

Äh, nee. Seit dem Tag, wo ich die robots.txt verändert habe wie in meinem Beispiel angegeben geht da nix mehr. Was heißt überflüssige Statistiken, würd schon den Trafficverbrauch gerne wissen und auch die vielen anderen Statistiken sind wichtig und nützlich.

Hmm, da hast du vermutlich Recht mit das es Unsinn ist. Aber irgendwie muss man sich doch gegen die bösen Bots schützen. Ich habe jetzt aber eine weitere Alternative mit Bot Trap gefunden. Dennoch hab ich gedacht, ist es nicht verkehrt, wenn man die Möglichkeit hat manuell zu sperren. Das erste Beispiel ist kopiert und sollt nur aufzeigen, wie jemand anderes gelöst hat. Da würde ich dann natürlich selber eine Ip eintragen, welche augenscheinlich Schindluder bei mir treibt.

Ok, das seh ich ein mit der grossen Liste, welche ich da gefunden habe. Mit Bot Trap werd ich besser und schneller geschützt sein denk ich mal. Also kann ich das wohl weglassen. Dennoch im Augenblick bin ich da nicht freigeschaltet und etwas hilflos in der Identifikation des bots oder robots der da bei mir für so viel Traffic sorgt. Die Ip taucht im Logfile nicht auf, sondern die vom Webhoster. Wie soll ich also den Zugriff verweigern, wenn ich die Identität nicht weiss ???

Das mit dem Bild finde ich nicht schlecht gegen Bilderklau, dann kann man ganz leicht in den Logfiles danach suchen und den Klauer identifizieren. Wenn es denn so funktioniert.

Hmm, also ich hab das nicht selber geschrieben mit den Error Dokumenten. Also sollten die weggelassen werden denk ich mal.

Ich bitte außerdem um etwas Nachsicht. Ist mein erstes großes Projekt und ich versuch alles so gut wie möglich zu machen. Leider bin ich kein Programmierer und wenn da Mist gebaut wird, kann ich es schlecht kontrollieren. Deshalb bin ich auch noch auf eure Hilfe angewiesen. Wichtigestes Problem neben der Ladezeit ist momentan erst mal der Überdimensionale Trafficverbrauch und da komm ich nicht weiter. Laut Logfile werden immer die gleichen Bilddateien runtergeladen, es steht aber immer nur die Ip vom Webhoster dabei und nicht vom Bot der was runterlädt. Ich kann den Zugriff also nicht per Order Deny sperren so wie es aussieht. Was kann ich da also machen?

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **w3news** » 08.11.2009, 15:26

Nur so nebenbei: Vielleicht mal bei der Sitemap die Testseiten rausnehmen.
https://www.anglerzeitung.de/813-0-dsf- ... -sdf-.html

Beitrag von **domainsnake** » 08.11.2009, 15:35

Ich frag mich etwas, warum dein Analysetool jetzt auch wieder nen anderen Wert ausspuckt, als da wo ich nachgeschaut hab. Also von 550 kb bis 930 kb ist alles dabei gewesen.

Hier sinds beispielsweise 640kb?
https://webtool.topsubmit.de/cgi-bin/lo ... timeout=10

Beitrag von **domainsnake** » 08.11.2009, 15:38

Bitte noch mal ganz ausdrücklich. Die Homepage ist noch under Construction und es sind nicht nur dort noch Testseiten drin. Mein Post hier dreht sich einzig um das Trafficproblem, welches von robots und Bots verursacht wird. Also laut den Ausführungen von Mork vom Ork habe ich mal versucht mit meinen Laienkenntnissen meine htaccess zusammenzubasteln.

Sieht dann so aus.

Order Allow,Deny
Allow from all
Deny from 64.239.138.76 # referrer spambot

# RewriteBase /
RewriteRule ^([0-9]*)-([0-9]*)- https://www.anglerzeitung.de/index.php? ... ERY_STRING}

RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www\.)?anglerzeitung\.de(/.*)?$ [NC]

RewriteCond %{HTTP_REFERER} !search [NC]
RewriteCond %{HTTP_REFERER} !google [NC]
RewriteCond %{HTTP_REFERER} !yahoo [NC]
RewriteCond %{HTTP_REFERER} !bing [NC]

RewriteRule \.(gif|jpg|png|pdf|GIF|JPG|PNG|PDF)$ https://www.anglerzeitung.de/__extern/geklaut.gif [R,L]

Wäre das so in Ordnung? Wenn ja bliebe das Problem der Identifizierung des Bots der da so viel Traffic verursacht.

Beitrag von **w3news** » 08.11.2009, 16:31

Mich wunderts halt nur, wie man sich darüber Gedanken macht, wie man Spam- Robots aussperrt, wenn noch nicht einmal die Seite steht.

Aber gut, soll ja nicht mein Bier sein...

Beitrag von **domainsnake** » 08.11.2009, 16:59

Im Großen und Ganzen steht die Seite ja. Es fehlt nicht mehr so viel. Vielleicht war es ein Fehler die schon online zu stellen aber immerhin kommen so die Serverkosten schon rein.

Anfangs gab es auch keine Probleme mit dem Traffic. Erst im Oktober schnellte der in die Höhe. Und wenn ich nix dageben tu, dann muss ich die mitte des Monats sperren, weils die Trafficgrenze des Webhosters überschreiten wird. Deshalb wär auch die Statistik gut von Confixx. Aber die geht seit dem Tag net mehr, wo ich die robots.txt verändert hab.

Also ne Lösung hab ich bis jetzt jedenfalls noch nicht für mein Problem, welches natürlich höchste Priorität hat. Danach geh ich in Ruhe alle anderen Sachen an.

War jetzt auch net bös gemeint aber dein Beitrag lenkte halt von meiner eigentlichen Frage eher ab. Also dem Robot oder Bot Problem. Im Oktober wurden knapp 19 GB gesaugt. 3 GB wurden von den Besuchern verursacht. 22 GB war der Gesamttraffic. Momentan liegt der Trafficverbrauch bei 3 GB täglich. Da kann man sich ja ausrechnen, wann ich meine Grenze von 50 GB überschreiten werde. Deshalb ists so dringend.

Beitrag von **Synonym** » 08.11.2009, 17:23

Also da muss ich den anderen hier schon auch recht geben. Das mit der .htaccess ist erst mal alles andere als nötig, denn den Traffic verursachst Du sicherlich selber und nicht irgendwelche Bots.

Alleine auf der Startseite gleich im ersten Drittel habe ich das gefunden

https://www.anglerzeitung.de/files/conceptRTE/style.css
https://www.anglerzeitung.de/files/conc ... ceptRTE.js

Die Dateien gibt es aber gar nicht und anstelle dass die einen Fehler 404 liefern würden, wird dank Deinem "ErrorDocument 404 https://www.anglerzeitung.de/" zwei mal extra die Startseite abgerufen.

Weiß der Geier was Du noch so alles hast, aber ich bin mir fast sicher, dass von Deinen 22 GB gut die Hälfte (oder mehr) durch solche Fehler kommt. Wenn die alle weg sind, dann spielen die Bots auch keine wirkliche Rolle mehr.

Beitrag von **Mork vom Ork** » 08.11.2009, 17:28

domainsnake hat geschrieben:So einen Check mit Anzeige der Ladezeit find ich übrigens für die Einzelbestandteile sehr interessant. Was ist das für ein Ladezeit-Checkerprogramm?

Das ist eine Erweiterung für Firefox namens Firebug. Wird normalerweise gerne wegen der Möglichkeit erwähnt, direkt im im Browser im HTML- und CSS-Code rumfuhrwerken zu können, bisweilen auch wegen des fähigen Javascript-Debuggers, aber der Netzwerkmonitor gehört halt auch dazu.

Aber was ausser Amazon wieder runterschmeissen kann man da machen?

Das sehe ich nicht so dramatisch. Sicherlich ist der Amazon-Server nicht gerade fix, aber der überwiegende Teil der Ladezeit wird auf deinem Server verbraten.

Viel Optimierungspotenzial liegt in den ganzen Scripten, CSS, Html und so. Allein das jquery lutscht 120kb und so weiter.

Sachen, die sich selten ändern, wie eben auch jquery, kannst du mit gzip vorab komprimieren. Hier habe ich zufällig gerade vorgestern diesen Weg beschrieben.

JQuery speziell belegt gzip-komprimiert 19 KByte, allerdings im Originalzustand auch nur 56 KByte, nicht 120 - hast du die richtige Fassung genommen („minified“)?
Davon unabhängig: Ich habe jetzt nicht weiter nachgeschaut, aber mir ist nicht wirklich aufgefallen, wo du JQuery einsetzt. Insofern möchtest du auch in diesem Punkt vielleicht nochmals prüfen, ob das unbedingt notwendig ist oder es eine kleinere Bibliothek wie DOMAssistant auch tut.

Seit dem Tag, wo ich die robots.txt verändert habe wie in meinem Beispiel angegeben geht da nix mehr. Was heißt überflüssige Statistiken, würd schon den Trafficverbrauch gerne wissen

Das Transfervolumen wird vom Server intern gemessen, dazu braucht es keinen Bot, wird ergo auch nicht durch die robots.txt behindert.

und auch die vielen anderen Statistiken sind wichtig und nützlich.

Ohne jetzt zu wissen, um welche es sich handelt, behaupte ich mal, dass auch diese Statistiken nicht durch eine robots.txt behindert werden, weil die dazugehörigen Daten samt und sonders auf anderem Wege gesammelt werden.
Vielleicht löschst du einfach probehalber die robots.txt und schaust, ob die Statistiken wiederkommen.

Dennoch hab ich gedacht, ist es nicht verkehrt, wenn man die Möglichkeit hat manuell zu sperren.

Diesen Punkt sehe ich ganz genau so, nur muss das halt eine gezielte Sperre sein und kein blinder Rundumschlag.

im Augenblick bin ich […] etwas hilflos in der Identifikation des bots oder robots der da bei mir für so viel Traffic sorgt. Die Ip taucht im Logfile nicht auf, sondern die vom Webhoster. Wie soll ich also den Zugriff verweigern, wenn ich die Identität nicht weiss ???
[…]
Laut Logfile werden immer die gleichen Bilddateien runtergeladen, es steht aber immer nur die Ip vom Webhoster dabei und nicht vom Bot der was runterlädt.

Ich habe den Verdacht, dass du da etwas falsch interpretierst, die Protokollfunktion falsch eingerichtet ist oder aber dein eigener Server Amok läuft. Vielleicht ist aus dem Protokoll mehr ersichtlich.

Das mit dem Bild finde ich nicht schlecht gegen Bilderklau, dann kann man ganz leicht in den Logfiles danach suchen und den Klauer identifizieren.

Wird ein Zugriff verweigert, taucht ein entsprechender Eintrag im Fehlerprotokoll auf. Vorausgesetzt, du hältst deine „Bude“ sauber, so dass im täglichen Betrieb keine Fehler auftauchen (das ist möglich), brauchst noch nicht einmal nach solchen Vorkommnissen suchen, sondern einfach ins Fehlerprotokoll schauen.

Hmm, also ich hab das nicht selber geschrieben mit den Error-Dokumenten. Also sollten die weggelassen werden denk ich mal.

Auf jeden Fall. Vermutlich wirst du dir dann das Fehlerprotokoll erstmal zumüllen, aber wenn du da am Ball bleibst und konsequent die Fehlerursachen ausmerzt, wird's schnell ruhiger.

Dein .htacces-Entwurf ist soweit in Ordnung aus, einzig in der Zeile …

RewriteRule ^([0-9]*)-([0-9]*)- https://www.anglerzeitung.de/index.php?article_id=$1&clang=$2&%{QUERY_STRING}

… solltest du den roten Teil rausnehmen.

Beitrag von **domainsnake** » 08.11.2009, 17:34

Hmm, keine Ahnung. Also ich hab jeztt erstmal die robots.txt wieder in den ursprünglichen Zustand versetzt, damit die Statistik funktioniert.

Ne style.css gibt es aber die müßte im Files Ordner liegen ???

Dann werd ich die htaccess jetzt mal wie oben beschrieben ausprobieren und ohne die Fehlermeldung Umleitung.

Laut Confixx sind Bots verantwortlich. Ach, ich weiß auch bald net mehr ???

Beitrag von **domainsnake** » 08.11.2009, 18:09

Oh, ne supi Antwort vom Ork.

Also so wie ich das seh, muß ich etwas Ursachenforschung beschreiben, deshalb hatte ich auch die Idee die robots.txt erstmal in den Ursprungszustand zu versetzen. Mal sehen obs dann wieder geht oder nicht.

Hmm, Firebug das werd ich mal installieren und etwas damit rumspielen. Finde ich sehr nützlich.

Ok, also lass ich Amazon erst mal noch drauf.

Ja, das mit gzip hab ich mir bereits aufgeschrieben. Der Programmierer ist aber noch net dazu gekommen. Da wird aber sicherlich optimiert werden. Beispielsweise auch beim calendar, mootools etc.

Naja, nur trotzdem komisch. Ich mein die Statistik läuft genau bis zu dem Punkt wo ich die robots.txt verändere. Kann Zufall sein aber mal sehen. Wenns jetzt wieder läuft war es jedenfals doch die Datei.

Die Statistik nennt sich von Confixx Awstats oder so und beinhaltet wirklich viele Statistiken, wieviel Traffic Besucher verursacht haben, Besucher, Impressions, woher die Besucher kamen, ....... sehr viele und von daher sehr nützlich für mich.

Jep, die grosse Liste hab ich jetzt weggelassen mit den ganzen kopierten Spambots. Nur ein einziger Eintrag im Order Deny, den ich dann immer manuell veränder. Außerdem ist die Bildergeschichte nun drin. Die Grafik mach ich gleich dazu. Die Error Umleitungen hab ich weggelassen. Habs hochgeladen und funktioniert sogar.

Auch die 2 oben genannten Links verursachen jetzt tatsächlich ne Fehlermeldung, so wie es sein sollte. Hat der Programmierer das gemacht, um seine eigenen Fehler zu vertuschen?

Ok, meine Homepageadresse nehm ich da raus. Was bewirkt die Zeile überhaupt?

Auzug aus der log Datei. Das ist ein Abschnitt der eigentlich ständig auftaucht, auch wenn ich bis zum Morgengrauen am Rechner bin und im Counter 1 Besucher (also ich) angezeigt wird. Die Ip ist vom Webhoster wo ich Kunde bin.

212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_04_25_04_05_59__1.jpg HTTP/1.0" 200 11726 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_04_25_04_05_59__2.jpg HTTP/1.0" 200 22030 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_04_25_04_05_59__3.jpg HTTP/1.0" 200 70230 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_04_25_03_22_59__1.jpg HTTP/1.0" 200 44951 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_23_30_27__1.jpg HTTP/1.0" 200 19969 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_23_30_27__2.jpg HTTP/1.0" 200 16400 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_22_36_07__1.jpg HTTP/1.0" 200 37432 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_22_19_49__1.jpg HTTP/1.0" 200 41349 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_22_19_49__2.jpg HTTP/1.0" 200 49828 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_22_19_49__3.jpg HTTP/1.0" 200 31527 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_22_19_49__4.jpg HTTP/1.0" 200 33857 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_21_58_52__1.jpg HTTP/1.0" 200 20193 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_21_58_52__2.jpg HTTP/1.0" 200 46802 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_20_06_00__1.jpg HTTP/1.0" 200 23037 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_20_06_00__2.jpg HTTP/1.0" 200 39717 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_20_06_00__3.jpg HTTP/1.0" 200 30876 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_19_47_27__1.jpg HTTP/1.0" 200 24941 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_16_34_45__1.jpg HTTP/1.0" 200 25543 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_16_34_45__2.jpg HTTP/1.0" 200 46202 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_16_34_45__3.jpg HTTP/1.0" 200 32963 "-" "-"
212.172.221.7 - - [03/Nov/2009:01:57:30 +0100] "GET /files/2009_08_06_16_34_45__4.jpg HTTP/1.0" 200 26956 "-" "-"

Beitrag von **domainsnake** » 08.11.2009, 18:17

Habs eben ausprobiert, wenn ich da www.anglerzeitung.de/ rausnehme, dann kommt ne 500er Errormessage

RewriteRule ^([0-9]*)-([0-9]*)- https://www.anglerzeitung.de/index.php? ... ERY_STRING}

Beitrag von **Synonym** » 08.11.2009, 18:39

also die beiden Dateien werden bei Dir so eingebunden, gibt es aber nicht. Nun kommt auch ein Fehler 404, vorhin war es eine Weiterleitung an die Startseite.

Code: Alles auswählen

<script language='JavaScript' type='text/javascript' src='./files/conceptRTE/conceptRTE.js'></script>
<link rel='STYLESHEET' type='text/css' href='./files/conceptRTE/style.css'>

Beitrag von **domainsnake** » 08.11.2009, 18:56

Kann ich die 2 Zeilen dann nicht einfach so rauslöschen? Wenn ich sie finde?