Vor drei Tagen war die Seite von adressendeutschland.de namens "konzept.html" noch im Google-Cache, inzwischen ist sie dort verschwunden. Aber manchmal hat archive.org auch sein Gutes, dort ist nämlich die Funktionsweise erklärt, die zu den massenhaften Seitenaufrufen in den Logs führt:
Der Robot arbeitet mit einer großen Datenbank der noch nicht besuchten URLs. Jede URL wird mit einer Prioritätszahl bewertet und einer Haupt DNS Domain zugeordnet. URLs, die am ehesten auf eine Impressumsseite schließen lassen, werden zuerst besucht. Wird eine Impressumsseite erkannt, so wird die Haupt DNS Domain als abgeschlossen betrachtet.
Wurde nach 200 Seitenabrufen keine Impressumsseite erkannt, so wird die Haupt DNS Domain aufgegeben, d.h. es werden niemals mehr als ca. 200 Seiten von jedem Server abgerufen.
Und später dann:
Adressmaterial wird nur veröffentlich werden, wenn es sich um Adressen von Firmen aus dem Handelsregister handelt.
Natürlich weiß unsere Datensammel-Software vor dem Abruf von Seiten nicht, was sie darin finden wird. Wenn eine Seite Verweise auf "Impressum.html" u. ä. enthält, sucht die Software dort natürlich zuerst, aber wenn keine Hinweise verfügbar sind, entsteht ein wahlloser Versuch die Impressumsseite in den "ersten" 200 Seiten zu finden. Daher werden dann u. U. auch Mailinglisten oder Gästebücher abgerufen.
Allerdings werden die dort gefundenen Daten mit den bereits bekannten Daten der Firmen aus dem Handelsregister verglichen und unbekannte Adressen – und damit auch alle privaten Daten - werden verworfen.
Wäre es dann nicht viel interessanter, die Jungs gleich auf eine Impressums-Seite umzuleiten, die einen maßgeschneiderten Inhalt bekommt? Wenn die Daten nicht nur maschinell ausgewertet werden, kann man den Betreibern auf diese Art und Weise ja seine Meinung mitteilen.
So ganz habe ich ja nicht verstanden, was mit "Haupt DNS Domain" gemeint ist, aber der Crawler ist ganz schön doof. Ich habe eine impressum.php, die von jeder Seite aus verlinkt ist, aber abgzugrasen versucht er nur ein Verzeichnis, das es nicht mehr gibt und wo er pausenlos 404 kassiert (und in der Fehlermeldungsseite ist übrigens auch wieder ein Link auf die impressum.php). Ins Wurzelverzeichnis scheint er überhaupt nicht zu wechseln, wo er ja spätestens funktionierende Seiten vorfinden würde.