ABAKUS

Verfasst: **20.01.2004, 19:46**

Hat schon mal jemand einen Crawler gesehen, der sich im User Agent als 'www.adressendeutschland.de' ausgibt? Der hat sich heute extrem gründlich durch einige Sites von mir gefressen, Robots.txt hat er nicht angefragt. E-Mail Harvester, oder ist der auch zu was gut?

Gruss,
Thomas

Verfasst: **20.01.2004, 20:13**

IP?
Noch nicht gesehen. Aber vorbereitet sein will.

Verfasst: **21.01.2004, 07:02**

IP war ebenfalls 'www.adressendeutschland.de' = 213.239.194.170

Verfasst: **21.01.2004, 07:45**

Danke! Kann zwar auf die Domain nicht zugreifen, aber ich glaub das brauch ma auch nicht.

Eines der schärfsten Dinger das mir je untergekommen ist war ja das Logspamming mit "Webverzeichnis.de - Telefon: 01908 / 26005" am Samstag. Natürlich nur die ODP-gelisteten Verzeichnisse.

Verfasst: **11.07.2004, 11:06**

Der Harvester rennt immer noch.

# www.adressendeutschland.de
iptables -A INPUT -p tcp -s 213.239.194.170 -j DROP

Verfasst: **11.07.2004, 17:18**

Hallo,
kommt adressendeutschland immer mit der gleichen IP?
Dann könnte man den ja per htaccess aussperren!

Außer Webverzeichnis gibt es dann ja auch noch thebestofnet unter den logfilespammern. Nervige Dinger.

Gruß
fool

Verfasst: **11.07.2004, 18:45**

die sammeln Daten für irgendein Verzeichnis von Firmen... braucht kein Mensch

also: wech damit ...

RewriteCond %{HTTP_USER_AGENT} ^.*adressendeutschland.*$
RewriteRule /* https://www.mvssolutions.com/spam.html [L,R]

Verfasst: **11.07.2004, 20:40**

@ blubb

das ist ja eine nette rewrite rule!
ist das deine homepage oder die von jemand anders?
ist nett gemacht.

Schönen Abend noch
fool

Verfasst: **01.08.2004, 20:13**

Hab jetzt auch nen Problem mit der "Schrottseite adressendeutschland". Seite ist gut, da kommt ja nicht mal drauf ! Allerdings sehr aktiv am sammeln.
@blubb da hast du aber eine schöne Lösung gefunden. Darf man sich die spam.html kopieren ?
Eine htaccess habe ich bereits. Wird dann noch eine zusätzliche erstellt oder das o.g. Beispiel zusätzlich in die bestehende hinzugefügt ?

Verfasst: **01.08.2004, 20:45**

Man kann keine zusätzliche erstellen.
Es muß in die vorhandene eingesetzt werden.

Verfasst: **28.12.2004, 00:23**

Vor drei Tagen war die Seite von adressendeutschland.de namens "konzept.html" noch im Google-Cache, inzwischen ist sie dort verschwunden. Aber manchmal hat archive.org auch sein Gutes, dort ist nämlich die Funktionsweise erklärt, die zu den massenhaften Seitenaufrufen in den Logs führt:

Der Robot arbeitet mit einer großen Datenbank der noch nicht besuchten URLs. Jede URL wird mit einer Prioritätszahl bewertet und einer Haupt DNS Domain zugeordnet. URLs, die am ehesten auf eine Impressumsseite schließen lassen, werden zuerst besucht. Wird eine Impressumsseite erkannt, so wird die Haupt DNS Domain als abgeschlossen betrachtet.

Wurde nach 200 Seitenabrufen keine Impressumsseite erkannt, so wird die Haupt DNS Domain aufgegeben, d.h. es werden niemals mehr als ca. 200 Seiten von jedem Server abgerufen.

Und später dann:

Adressmaterial wird nur veröffentlich werden, wenn es sich um Adressen von Firmen aus dem Handelsregister handelt.

Natürlich weiß unsere Datensammel-Software vor dem Abruf von Seiten nicht, was sie darin finden wird. Wenn eine Seite Verweise auf "Impressum.html" u. ä. enthält, sucht die Software dort natürlich zuerst, aber wenn keine Hinweise verfügbar sind, entsteht ein wahlloser Versuch die Impressumsseite in den "ersten" 200 Seiten zu finden. Daher werden dann u. U. auch Mailinglisten oder Gästebücher abgerufen.

Allerdings werden die dort gefundenen Daten mit den bereits bekannten Daten der Firmen aus dem Handelsregister verglichen und unbekannte Adressen – und damit auch alle privaten Daten - werden verworfen.

Wäre es dann nicht viel interessanter, die Jungs gleich auf eine Impressums-Seite umzuleiten, die einen maßgeschneiderten Inhalt bekommt? Wenn die Daten nicht nur maschinell ausgewertet werden, kann man den Betreibern auf diese Art und Weise ja seine Meinung mitteilen.

So ganz habe ich ja nicht verstanden, was mit "Haupt DNS Domain" gemeint ist, aber der Crawler ist ganz schön doof. Ich habe eine impressum.php, die von jeder Seite aus verlinkt ist, aber abgzugrasen versucht er nur ein Verzeichnis, das es nicht mehr gibt und wo er pausenlos 404 kassiert (und in der Fehlermeldungsseite ist übrigens auch wieder ein Link auf die impressum.php). Ins Wurzelverzeichnis scheint er überhaupt nicht zu wechseln, wo er ja spätestens funktionierende Seiten vorfinden würde.

Verfasst: **29.12.2004, 00:49**

a) impressum nicht "impressum" oder "imprint" nennen..
b) statt html text lieber ein bild rein

Verfasst: **29.12.2004, 01:11**

Da verstehe ich jetzt den Zusammenhang nicht ganz. Ja, dieser Bot sucht nach einem Imressum, aber

1. wie sollte man ein Impressum nennen, wenn man aus rechtlichen Gründen ein Impressum braucht, so daß es von einem durchschnittlichen Besucher als solches identifiziert werden kann?

2. ein Bild ist von normalen Besuchern nicht unbedingt lesbar, z.B. mit einem Textbrowser oder ausgeschalteten Bildern wäre man dumm dran.

3. wenn man nur den Bot hindern will, die Daten aus dem Impressum abzugleichen, kann man es über die IP tun, von der er kommt. Ist doch viel eleganter, wenn dadurch der normale Besucher nicht beeinträchtigt wird, oder?

Verfasst: **29.12.2004, 01:16**

3. wenn man nur den Bot hindern will, die Daten aus dem Impressum abzugleichen, kann man es über die IP tun, von der er kommt. Ist doch viel eleganter, wenn dadurch der normale Besucher nicht beeinträchtigt wird, oder?

Deshalb kommen die hartnäckigen Bots auch mit wechselnden IPs / UAs ...und aus die Maus.

Verfasst: **29.12.2004, 01:21**

Hier geht es doch aber nur um den einen, und der kommt anscheinend immer von derselben IP, auf der auch der Webserver selber läuft.

ABAKUS

Crawler: www.adressendeutschland.de

Crawler: www.adressendeutschland.de