Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Crawler: www.adressendeutschland.de

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Fruetel
PostRank 6
PostRank 6
Beiträge: 392
Registriert: 05.06.2003, 22:00
Wohnort: Essen

Beitrag von Fruetel » 20.01.2004, 19:46

Hat schon mal jemand einen Crawler gesehen, der sich im User Agent als 'www.adressendeutschland.de' ausgibt? Der hat sich heute extrem gründlich durch einige Sites von mir gefressen, Robots.txt hat er nicht angefragt. E-Mail Harvester, oder ist der auch zu was gut?

Gruss,
Thomas
Aktuell im Webmaster Blog:
Bild

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 20.01.2004, 20:13

IP?
Noch nicht gesehen. Aber vorbereitet sein will.

Fruetel
PostRank 6
PostRank 6
Beiträge: 392
Registriert: 05.06.2003, 22:00
Wohnort: Essen

Beitrag von Fruetel » 21.01.2004, 07:02

IP war ebenfalls 'www.adressendeutschland.de' = 213.239.194.170
Aktuell im Webmaster Blog:
Bild

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 21.01.2004, 07:45

Danke! Kann zwar auf die Domain nicht zugreifen, aber ich glaub das brauch ma auch nicht.

Eines der schärfsten Dinger das mir je untergekommen ist war ja das Logspamming mit "Webverzeichnis.de - Telefon: 01908 / 26005" am Samstag. Natürlich nur die ODP-gelisteten Verzeichnisse.

trafficstatistic
PostRank 1
PostRank 1
Beiträge: 1
Registriert: 11.07.2004, 11:03

Beitrag von trafficstatistic » 11.07.2004, 11:06

Der Harvester rennt immer noch.

# www.adressendeutschland.de
iptables -A INPUT -p tcp -s 213.239.194.170 -j DROP
Who comsumes all my bandwidth? I wanted to know it more detailed. That's what came out:
https://www.trafficstatistic.com/

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 11.07.2004, 17:18

Hallo,
kommt adressendeutschland immer mit der gleichen IP?
Dann könnte man den ja per htaccess aussperren!

Außer Webverzeichnis gibt es dann ja auch noch thebestofnet unter den logfilespammern. Nervige Dinger.

Gruß
fool

blubb
PostRank 4
PostRank 4
Beiträge: 103
Registriert: 09.02.2004, 03:03
Wohnort: localhost

Beitrag von blubb » 11.07.2004, 18:45

die sammeln Daten für irgendein Verzeichnis von Firmen... braucht kein Mensch

also: wech damit ... :lol:

RewriteCond %{HTTP_USER_AGENT} ^.*adressendeutschland.*$
RewriteRule /* https://www.mvssolutions.com/spam.html [L,R]

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 11.07.2004, 20:40

@ blubb

das ist ja eine nette rewrite rule!
ist das deine homepage oder die von jemand anders?
ist nett gemacht.

Schönen Abend noch
fool

Luckybuy3000
PostRank 7
PostRank 7
Beiträge: 543
Registriert: 07.11.2003, 08:49
Wohnort: Essen

Beitrag von Luckybuy3000 » 01.08.2004, 20:13

Hab jetzt auch nen Problem mit der "Schrottseite adressendeutschland". Seite ist gut, da kommt ja nicht mal drauf ! Allerdings sehr aktiv am sammeln.
@blubb da hast du aber eine schöne Lösung gefunden. Darf man sich die spam.html kopieren ?
Eine htaccess habe ich bereits. Wird dann noch eine zusätzliche erstellt oder das o.g. Beispiel zusätzlich in die bestehende hinzugefügt ?

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 01.08.2004, 20:45

Man kann keine zusätzliche erstellen.
Es muß in die vorhandene eingesetzt werden.

Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 28.12.2004, 00:23

Vor drei Tagen war die Seite von adressendeutschland.de namens "konzept.html" noch im Google-Cache, inzwischen ist sie dort verschwunden. Aber manchmal hat archive.org auch sein Gutes, dort ist nämlich die Funktionsweise erklärt, die zu den massenhaften Seitenaufrufen in den Logs führt:
Der Robot arbeitet mit einer großen Datenbank der noch nicht besuchten URLs. Jede URL wird mit einer Prioritätszahl bewertet und einer Haupt DNS Domain zugeordnet. URLs, die am ehesten auf eine Impressumsseite schließen lassen, werden zuerst besucht. Wird eine Impressumsseite erkannt, so wird die Haupt DNS Domain als abgeschlossen betrachtet.

Wurde nach 200 Seitenabrufen keine Impressumsseite erkannt, so wird die Haupt DNS Domain aufgegeben, d.h. es werden niemals mehr als ca. 200 Seiten von jedem Server abgerufen.
Und später dann:
Adressmaterial wird nur veröffentlich werden, wenn es sich um Adressen von Firmen aus dem Handelsregister handelt.

Natürlich weiß unsere Datensammel-Software vor dem Abruf von Seiten nicht, was sie darin finden wird. Wenn eine Seite Verweise auf "Impressum.html" u. ä. enthält, sucht die Software dort natürlich zuerst, aber wenn keine Hinweise verfügbar sind, entsteht ein wahlloser Versuch die Impressumsseite in den "ersten" 200 Seiten zu finden. Daher werden dann u. U. auch Mailinglisten oder Gästebücher abgerufen.

Allerdings werden die dort gefundenen Daten mit den bereits bekannten Daten der Firmen aus dem Handelsregister verglichen und unbekannte Adressen – und damit auch alle privaten Daten - werden verworfen.
Wäre es dann nicht viel interessanter, die Jungs gleich auf eine Impressums-Seite umzuleiten, die einen maßgeschneiderten Inhalt bekommt? Wenn die Daten nicht nur maschinell ausgewertet werden, kann man den Betreibern auf diese Art und Weise ja seine Meinung mitteilen.

So ganz habe ich ja nicht verstanden, was mit "Haupt DNS Domain" gemeint ist, aber der Crawler ist ganz schön doof. Ich habe eine impressum.php, die von jeder Seite aus verlinkt ist, aber abgzugrasen versucht er nur ein Verzeichnis, das es nicht mehr gibt und wo er pausenlos 404 kassiert (und in der Fehlermeldungsseite ist übrigens auch wieder ein Link auf die impressum.php). Ins Wurzelverzeichnis scheint er überhaupt nicht zu wechseln, wo er ja spätestens funktionierende Seiten vorfinden würde.

tron
PostRank 8
PostRank 8
Beiträge: 862
Registriert: 16.09.2003, 13:56
Wohnort: HUHU

Beitrag von tron » 29.12.2004, 00:49

a) impressum nicht "impressum" oder "imprint" nennen..
b) statt html text lieber ein bild rein

:)

Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 29.12.2004, 01:11

Da verstehe ich jetzt den Zusammenhang nicht ganz. Ja, dieser Bot sucht nach einem Imressum, aber

1. wie sollte man ein Impressum nennen, wenn man aus rechtlichen Gründen ein Impressum braucht, so daß es von einem durchschnittlichen Besucher als solches identifiziert werden kann?

2. ein Bild ist von normalen Besuchern nicht unbedingt lesbar, z.B. mit einem Textbrowser oder ausgeschalteten Bildern wäre man dumm dran.

3. wenn man nur den Bot hindern will, die Daten aus dem Impressum abzugleichen, kann man es über die IP tun, von der er kommt. Ist doch viel eleganter, wenn dadurch der normale Besucher nicht beeinträchtigt wird, oder?

LinkPop
PostRank 9
PostRank 9
Beiträge: 1677
Registriert: 02.05.2004, 13:52

Beitrag von LinkPop » 29.12.2004, 01:16

3. wenn man nur den Bot hindern will, die Daten aus dem Impressum abzugleichen, kann man es über die IP tun, von der er kommt. Ist doch viel eleganter, wenn dadurch der normale Besucher nicht beeinträchtigt wird, oder?
Deshalb kommen die hartnäckigen Bots auch mit wechselnden IPs / UAs ...und aus die Maus.
[url=httpss://www.rankseek.com/][img]httpss://www.rankseek.com/img/rankseek-xs-2.png[/img][/url]
  • Täglicher Ranking-Check Deiner Top-Keywords mit Traffic-Index für Mobile und Desktop, Serp-View, Reporting, Ranking-Charts, Konkurrenzanalyse, Ranking-Verteilung, Keyword-Suggest und mehr für nur 11,90 € / Monat. Jetzt alle rankseek-Tools 30 Tage kostenlos testen » [url=httpss://www.rankseek.com/features.php]Features[/url]

Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 29.12.2004, 01:21

Hier geht es doch aber nur um den einen, und der kommt anscheinend immer von derselben IP, auf der auch der Webserver selber läuft.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag