Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Spider aus dem IP-Adreßbereich von Time-Warner

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 20.11.2004, 09:40

Seit Monaten fiel mir in meinem Web-Log auf, daß aus einem bestimmten IP-Adreßbereich zwei nicht mehr vorhandene Seiten jeweils einmal täglich abgefragt wurden, zusammen mit meiner existierenden Startseite. Auf Nachfrage bei der zuständigen Firma bekam ich folgende Antwort:
Our company (Websense Inc, www[dot]websense[dot]com) [Anmerkung: Ich will nicht auch noch per Link Werbung für die machen] categorizes websites based on the content. We periodically run automated tools to attempt to catalog publicly available websites.

For your reference our probes come from the range 66.194.6.0/24 and are done at most twice in one day to public websites such as yours.

I assure you we are not trying to cause you any harm and apologize for the inconveniences.
Danach in einer zweiten Mail:
The list of URLs we probe are gathered automatically from what our customers visit (or attempt to visit). So what it must be happening is we have a customer which for some reason is attempting to visit only the three pages you mention below. If the customer were to stop his attempts we would not get the 3 pages added to our database and our tools would expire (remove) those entries soon thereafter.
I hope this explains the situation. Basically our tools do stop probing deleted links but the problem is that they may get added again the following day or week if a Websense customer attempts to go there (knowingly or not).

Please feel free to put access controls on our ranges if needed.
Warum dieses Tool nicht in die robots.txt schaut, und warum die Seiten seit Monaten abgefragt werden, obwohl nachweislich niemand außer dem Tool diese Seiten abfragt und Fehler 410 zurückgegeben wird, diese Fragen wurden bisher leider nicht beantwortet. Daraufhin habe ich jetzt den IP-Bereich 66.194.6.0/24 komplett gesperrt.

Gäbe es irgendetwas anderes und sinnvolleres, was ich tun könnte?

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 20.11.2004, 10:11

Die Sperrung von Time Warner Telecom ist vollkommen OK, ich bekam noch nie etwas qualifiziertes aus ihrem IP-Bereich. Man beachte auch insbesondere die wechselden, gefakten User-agents bei Websense:
Mozilla/5.0 (compatible; Konqueror/3.1-rc3; i686 Linux; 20020927)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Q312466)
Daß keine robots.txt gespidert und beachtet wird paßt nur zu gut ins Bild.
Gäbe es irgendetwas anderes und sinnvolleres, was ich tun könnte?
Seit websense bei mir das erste mal ganz durch war cloake ich ihnen eine leere Seite vor. Ich hoffe daß sie nicht lange cachen und auf diese Weise alle was sie von mir haben mit der Zeit verschwindet. Bei neuen Projekten gibts auch eine leere Seite mit 200 OK. Websense erstellt Filterlösungen.
410
Geht nur bei HTTP/1.1 - trifft also bei Websense zu.

Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 28.03.2005, 11:39

Nach viel Abwarten und einigen Mails klingt es so, als geht man bei Websense davon aus, daß ich zu den False Positives in ihrer "Mining Database" gehöre. Als ich mich zu guter Letzt an suggest [at] websense [dot] com wendete, wurde ich nach der IP meines Webservers gefragt, dann kam noch eine kurze Bestätigung, seitdem bin ich die Jungs los.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag