Seite 1 von 1

MIA-Bot der TU-Berlin

Verfasst: 20.12.2012, 09:35
von PhpAss
Morgen !

Seit einigen Tagen geistert ein Crawler der "Technischen Universität Berlin" auf einem Projekt von mir herum und macht nun doch schon einiges an Traffic aus. Kennt vielleicht jemand diesen Crawler, bzw. sollte ich diesen besser aussperren ?

Folgende Informationen dazu konnte ich recherchieren:

Bot-Name / Version: MIA DEV/search:robot/0.0.1
Bot-Beschreibung: MIA Bot for research project MIA
Bot-Projekt: www.MIA-marktplatz.de
Crawler: https://www.neofonie.de/spider - bzw. https://spider.neofonie.de

Hier noch ein Video mit einigen Hintergründen zum Projekt:
https://www.digital-zeitschrift.de/medi ... alk&id=329

So wie ich das verstehe, crawlen die "angeblich" das gesamte Web und verkaufen dann später die "aufbereiteten (semantischen)" Daten an Interessierte. Was habe ich, als Webseiten-Betreiber der die Inhalte zur Verfügung stellt denn von dem ganzen Spass ? Momentan sieht es für mich so aus, das MEINE Inhalte gecrawlt werden und später "aufbereitet" zum Verkauf angeboten werden, womit ich grundsätzlich natürlich nicht einverstanden wäre.

Hat jemand dazu eventuell weitere Informationen ? Den Crawler besser aussperren, oder doch nicht ?

Zum Thema passende Beiträge / Antworten sind gern gesehen ...

Gruß

Verfasst:
von

Verfasst: 20.12.2012, 12:53
von elmex
Ich habe mal analysiert, was das Ding so treibt auf meinen Seiten, gefällt mir nicht!

Der saugt mir in viel zu schneller Zeit (anscheinend ohne Delay) zu viele Seiten, hat zwar Querabfragen auf die robots.txt gemacht aber zumindest in einem Fall sich nicht dran gehalten.

Werde es weiter beobachten und ggf. ins bottrap setzen, danke für den Hinweis @PhpAss!

Wer mittlerweile alles mit den daten anderer Geld machen will :o

Verfasst: 22.12.2012, 10:46
von Rem
Steht ja in gut Deutsch auf mia-marktplatz.de:

"Ein besonderes Merkmal des Projekts ist es, dass das deutschsprachige Internet inklusive seiner Historie als Datenbasis für Analysen und Mehrwertdienste bereitgestellt werden soll."

Sie klauen Deine Inhalte, um sie dann kostenpflichtig weiterzuverkaufen.

Verfasst: 22.12.2012, 18:28
von elmex
Also, wer Bot-Trap nutzt, der Bot ist dort bereits seit Februar oder so ausgesperrt...

Es scheint also definitiv besser, den zu bannen ;)