ich habe alle User-Agents mit "wget/" geblockt. Nun habe ich gesehen, dass sich ein User Agent als
Wget/1.10.2 (Red Hat modified)
identifiziert, der von der IP 68.180.251.16 kommt. Das ist llf310004.crawl.yahoo.net
Wenn ich diesem Crawler also eine Fehlermeldung präsentiere, könnte der das als Cloaking missverstehen? Sollte ich den Filter auf wget dann löschen?
Ich finde aber eigentlich, der soll sich dann irgendwie anders identifizieren.
Naja ist halt die Frage wie viel Wert du auf Yahoo legst. Da Problem besteht halt immer wenn Leute sich nicht an Regelungen halten. Alternativ könntest du ja auch whitelists anlegen in denen du zb alle Anfragen von *.yahoo.net erlaubst . Das ist aber ggf sehr aufwändig.
Würde mir auch überlegen warum du den überhaupt blocken magst und was der wget da so "schlimmes" machen kann. Datenklauer kommen auch über andere Wege als WGET =)
die ganze script kiddie armada nutzt wget.. verstehe nicht warum yahoo den ploetzlich benutzen sollte.. ergibt irgendwie keinen sinn. eine so halbwegs grosse suma sollte sich ANSTAENDIG und vor allem SELBSTBESCHREIBEND "outen", und sich nihct hinter einem ominoesen wget verstecken..
Die script-kiddies sind aber auch nich doof, und wenn die Deine Seite wollen, is es nicht so schwer ein --user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3" hinter das wget zu setzen.