Spider aus dem IP-Adreßbereich von Time-Warner
Verfasst: 20.11.2004, 09:40
Seit Monaten fiel mir in meinem Web-Log auf, daß aus einem bestimmten IP-Adreßbereich zwei nicht mehr vorhandene Seiten jeweils einmal täglich abgefragt wurden, zusammen mit meiner existierenden Startseite. Auf Nachfrage bei der zuständigen Firma bekam ich folgende Antwort:
Gäbe es irgendetwas anderes und sinnvolleres, was ich tun könnte?
Danach in einer zweiten Mail:Our company (Websense Inc, www[dot]websense[dot]com) [Anmerkung: Ich will nicht auch noch per Link Werbung für die machen] categorizes websites based on the content. We periodically run automated tools to attempt to catalog publicly available websites.
For your reference our probes come from the range 66.194.6.0/24 and are done at most twice in one day to public websites such as yours.
I assure you we are not trying to cause you any harm and apologize for the inconveniences.
Warum dieses Tool nicht in die robots.txt schaut, und warum die Seiten seit Monaten abgefragt werden, obwohl nachweislich niemand außer dem Tool diese Seiten abfragt und Fehler 410 zurückgegeben wird, diese Fragen wurden bisher leider nicht beantwortet. Daraufhin habe ich jetzt den IP-Bereich 66.194.6.0/24 komplett gesperrt.The list of URLs we probe are gathered automatically from what our customers visit (or attempt to visit). So what it must be happening is we have a customer which for some reason is attempting to visit only the three pages you mention below. If the customer were to stop his attempts we would not get the 3 pages added to our database and our tools would expire (remove) those entries soon thereafter.
I hope this explains the situation. Basically our tools do stop probing deleted links but the problem is that they may get added again the following day or week if a Websense customer attempts to go there (knowingly or not).
Please feel free to put access controls on our ranges if needed.
Gäbe es irgendetwas anderes und sinnvolleres, was ich tun könnte?