Tja, für mich hört sich das ganze auch eher so an, als wolle man nun zurückrudern, da die ganze Sache aufgeflogen ist. Zum einen die Aktion mit den Proxyservern, das hat keine seriöse Suchmaschine nötig. Und warum braucht man 1243 Einträge in der hosts dabei um zu testen?
Guck Dir halt mal das XML des ODP-Dumps an. Ist relativ simple und dauert länger als 30 Minuten, nen Scripts dafür zu schreiben.
Der Import dauert dann allerdings eine Nacht und erzeugt eine 3GB grosse Mysql-DB.
Schönes Tool, leider erlaubt Google keine automatisierten Abfragen (https://www.google.de/intl/de/terms.html): "Keine automatisierten Anfragen Ohne im Voraus eine Erlaubnis von Google erhalten zu haben, dürfen Sie keine automatisierten Anfragen irgendeiner Art an Googles System senden. Beachten...
Ich habe gestern mit dem Opera ein paar URLs besucht, die definitiv nicht im Googleindex sind. Kurz danach (10-15Minuten) kam ein Googlebot mit den bekannten Hosts (crawlerXX.googlebot.com) aber mit einem anderen UserAgent (Mediapartners-Google/2.1 (+https://www.googlebot.com/bot.html)). Bis heute s...