Hallo,
bei mir häufen sich seit rund zwei Wochen Zugriffe von den verschiedensten Providern der Welt (aber hauptsächlich dial-up), die unmengen Seitenabrufe machen. Dabei werden dann "normale" Useragents als Identifizierung versendet.
Wer kann mir dazu mehr sagen (und tut es auch)?
Vor allem folgende Fragen interessieren mich
- Gibt es einige wenige große Bots oder baut sich jeder selber einen Schrott zusammen (a la Spidering Hacks von O'Reilly)
- Sind das Anwendungen die auf den Rechnern der echten "Täter" laufen, oder läuft sowas per botnet auf gekaperten Maschinen?
- Was machen die mit dem ganzen Content (ich habe bei den betroffenen Seiten noch keine Mirror Seiten entdeckt)
- Hat jemand so einen Harvester schonmal in die Hände bekommen?
- Ist es notwendig etwas gegen diese Bots zu unternehmen (außer unter Last und Traffikgesichtspunkten)
Ich würde mich sehr über Antworten freuen und kann gerne eigene Logs oder ähnliches beisteuern falls das etwas hilft.
nur (freche) vermutungen:
1. jeder denkt er ist so goettlich toll und hat DIE millionaers-idee die noch nie ein anderer vor ihm hatte, dass er unbedingt seinen schrott selber zusammenbauen muss.
2. sowohl als auch, mich wuerde aber nich wundern wenn die dinge teilweise unter falschem namen laufen (z.b. grid computing fuer irgendwas nobles.., domain grabbing fuer den heiligen gral..)
3. wahrscheinlich kriegen sie es nicht auf die reihe, und es wandert dann doch nur in den muell.
4. das waere schoen, aber dazu muss man in die "dunklen kreise" einsteigen.
5. das kommt wohl immer drauf an, ob man was dagegen tun will. hier koennten sachen helfen wie ddos.sh , apf, iptables. damit kann man schon mal begrenzen wieviele connections in welcher zeitspanne erlaubt sind..
Mir klingt das nach Harvestern für eMail-Adressen, die für den nächsten Spam-Lauf gesammelt werden. Ich vermute das bei mir auch seit dieser Zeitspanne, genaueres feststellen konnte ich noch nicht...
Hi,
es gibt ein paar besonders beliebte Bibliotheken, die man zum Schrott..- äh.. Bot-Bauen benutzen kann. libwww-perl, java, curl.
Der Bot von LiteFinder zum Beispiel hat mehr 404-Seiten gesehen als eigentlichen Content - totaler Müll. Ich glaube schon, dass da einige erstmal Programmieren lernen sollten. Es hilft auch, wenn man grundlegende Kenntnis vom HTTP hat.
Ich habe zur Zeit dauernd irgendwelche Bots auf der Site, die nach exploits verschiedener CMS suchen, hmmm das gibt nur 404 und 403. Ich nehme an, dass die aus einem Bot-Netzwerk kommen, die versuchen immer txt-Dateien von gehackten Servern über ein PHP-Include einzubinden.
Ich habe keine hohe Meinung von solchen Script-Kiddie-Sachen. Kann schon sein, dass sich damit mancher als elendskrasser Haxx0r fühlt.
Was ganz gut tut ist die größten Nervensägen per htaccess oder ähnliches auszusperren: Java, Curl, libwww, Python-urllib, etc. Es wird schlagartig ruhiger.