Hallo,
als ich gestern meine Stats angesehen hab, hatte ich plötzlich ein "Verkehrsaufkommen" von 7000 Besuchen. Normal waren bei mir allerdings so 500-700 Besucher pro Tag. In der Statistik hab ich rausgefunden, dass der Übeltäter Wget war mit über 6000 Zugriffen. Ich hab keine Ahnung was dieses Programm von mir will. Hat jemand ne Ahnung warum das Programm so häufig meine Seite besucht hat ?
Da hat jemand oder mehrere Deine komplette Seite (wenigstens aber einen Teil) heruntergeladen. Sogenannte Offline-Browser wie eben Wget, Teleport Pro, HTTrack, Website Copier etc. sind nichts anderes als Programme, welche eine lokale Kopie einer Website auf der Festplatte des Benutzers erzeugen.
Es finden sich in diesem Forum Mittel und Wege, wie man dies unterbinden kann.
Das hab ich mir auch schon gedacht aber mit über 6000 Zugriffen ? Oder Spidern die auch einfach durchs Netz ? Wenn ja wie sind die dann auf meine Seite mit so hoher Anzahl gekommen ? So viele links verweisen gar nicht auf mich.
Vielleicht hat der Verursacher auch gemeint, Deine Seite mehrmals spidern zu wollen (in der Hoffnung, mehr zu finden), aber diese Fragen kann Dir nur ein Blick in Deine Logdateien beantworten (nicht irgeneinem Statistikprogramm vertrauen).
Sofern Du keinen Zugriff auf "raw logs" (in der Regel im Ordner /logs/) hast, empfehle ich dringend, den Anbieter zu wechseln.
Richtig. Bereits die Billigtarife bei 1 und 1 haben erfreulicherweise Echtzeit-Logs.
Es muß dort auch eine Datei namens access.log.43.6 geben (Kalenderwoche 43 Wochentag 6, also heute. Dabei handelt es sich um eine reine Textdatei. Die Logs der Vorwochen sind bei 1und1 gezippt und heißen access.log.42.gz usw, genauso die der Vortage. Die Logs hier sind im "Combined Log Format" gehalten, dessen Doku man hier findet https://httpsd.apache.org/docs/logs.html#combined (auch weiter oben auf der Seite lesen!) und deren Lektüre zum Verständnis erforderlich ist.
Zuletzt geändert von bull am 23.10.2004, 12:37, insgesamt 1-mal geändert.
OK scheint diese Datei zu sein, hab dort alle Einträge gefunden. Alle wgets kamen von der selben Ip: 217.93.30.149. Was ich nun mit diesem Wissen mache ist mir allerdings schleierhaft. Oder kann man rausbekommen wer hinter dieser IP steckt
Nichts. Das Kind ist bereits in den Brunnen gefallen, und der Benutzer des Spiders hat jetzt eine lokale Kopie. Was er damit anstellt kann man nicht voraussagen.
samspade.org hat diverse Werkzeuge, darunter auch "IP Whois". In dieses Feld gebe man die verursachende IP ein. Bei der von Dir genannten handelt es sich um einen T-Online-Benutzer. Jetzt deswegen T-Online zu sperren ist allerdings wenig zweckmäßig. Bei Colocation- oder Nur-Hosting-Anbietern ist dies bereits sinnvoller, da mit menschlichen Benutzern dort nicht gerechnet zu werden braucht.
Man kann allenfalls Vorbeugemaßnahmen (siehe Sperrlisten hier im Forum, zu deren Verständnis die Lektüre von https://httpsd.apache.org/docs/mod/mod_rewrite.html notwendig ist) treffen.
Dieser Faden entwickelt sich bereits zum Tutorial.
Nur noch mal zur Ergänzung. Heute Nachmittag hat ich bereits über 40.000 Zugriffe von Wget, inzwischen stürzt mein Statistik tool beim auswerten ab Langsam wirds mir unheimlich
Hallo hagbart,
dann wundert es mich aber, warum du noch immer nicht wget per htaccess geblockt hast. Schließlich ist das ja einfach möglich. Dann ist Schluß damit (...) oder der andere weiß, dass er den UserAgent in wget auch ändern kann.
Gruß
fool