82.36.78.78 - - [18/Oct/2004:18:30:47 +0200] "GET /robots.txt HTTP/1.1" 200 3053 "-" "MJ12bot/v0.5.0 (https://www.majestic12.co.uk/projects/d ... j12bot.php) run by PeerID=F43AA089D42A3C7610E3778C4E73A95E MemberID=C9403BB515387FBB631AC512950E6F0E" "-"
82.36.78.78 - - [18/Oct/2004:18:30:49 +0200] "GET /odp-gelistet/ HTTP/1.1" 301 241 "-" "MJ12bot/v0.5.0 (https://www.majestic12.co.uk/projects/d ... j12bot.php) run by PeerID=F43AA089D42A3C7610E3778C4E73A95E MemberID=C9403BB515387FBB631AC512950E6F0E" "-"
Erster Datensatz basierte naturgemäß auf dem ODP, inzwischen 36 000 000 URLs gecrawlt, robots.txt konform und unterstützt auch Crawl-Delay. Die Peer-ID ist für jeden Teilnehmer, der sich den Client heruntergeladen hat, verschieden. Mehr auch bei WMW
Ja hab mir den Client heruntergeladen und auf einer 2MBit-Leitung laufen lassen, sehr effektiv, gut programmiert, schnelle Bugfixes.
Erste Beta mit Suchfeld soll es Anfang Februar geben. Bin gespannt.
Seit geraumer Zeit gibt es nun auch den Suchschlitz zum Crawler.
Aus diesem Grund weise ich nochmals ergänzend auf das Projekt hin, in der Hoffnung, dass sich noch ein paar Anhänger für dieses Projekt finden.
Es ist alle mal besser als die deutschen Ableger wie suma-lab.de von suma-ev.de oder dem vom BUND geförderten Projekt smartweb