Seite 1 von 1

Verfasst: 11.08.2003, 13:08
von daniel_k
und schaut mal hier welcher looksmart-dienst meine seiten crawlt:
https://www.grub.org

kennt das jemand?

Verfasst:
von

Verfasst: 11.08.2003, 13:13
von viggen
grub ist wie du schon sagtst ein looksmart (wisenut) bot, bisher hat es aber noch keine bestätigung gegeben das die arbeit von grub irgendwo auch erscheinen.

er ist auch sehr unzuverlässig die robots.txt einzuhalten.

Laut webseite soll es bei looksmart irgendwann mal verwendet werden.

Das Prinzip ist distributed computing (so wie das seti project).

mfg

Verfasst: 04.09.2003, 09:53
von Klaus
Hallo.
War bei mir auch. Des öfteren.
Bitte, wie hält er denn (eventuelle) die robots.txt ein.
Welche Zeile muss es sein?
Ist das so richtig?

User-agent: grub-client-1.4.3
Disallow:/webseiten
Disallow: /logs/
Disallow:/ etpc.pp...

Gruß
Klaus

Verfasst: 04.09.2003, 11:16
von Noki
Hallo!

Eigentlich sollte der Grub Bot mittlerweile die Robots.txt einhalten! Wer mal die News auf der grub Webseite gelesen hat weis dies auch. Wer sich sicher sein will kann auch über die Grub Webseite die aktuelle robots.txt neu spidern lassen.

Benutzt werden die Grub Ergebnisse bisher nur von Wisenut https://www.wisenut.com/ - Das ganze ist meiner Meinung nach noch ein wenig Beta aber ich denke mal man sollte das ganze unterstützen. Gut gefällt mir vorallem die Local Crawling Funktion die es mir erlaubt meine eigenen Seiten zu crawlen. Der Vorteil liegt auf der Hand - ein local eingerichteter Mirror läßt sich wesentlich schneller und mit weniger Traffic crawlen. Ein Nachteil ist natürlich das man auch wesentlich besser die Resultate fälschen kann.

Verfasst: 14.02.2005, 15:16
von axelm
Jetzt ist über ein Jahr vergangen wie sind so eurer Erfahrungen mit dem Ding?

Ich finde der Client ist besser geworden, aber sonst (traffic oder sowas) habe ich nichts gemerkt. Ich lass es einfach nebenbei laufen aber ich frage mich ob das was bringt.

Grub

Verfasst: 28.02.2005, 12:10
von Maschenka
Im Dezember/Januar hat der Bot sich leider keinen Deut um meine robots.txt geschert. Zwar wurde sie abgerufen, aber eine IP, die direkt zum Bereich von Looksmart gehört, hat trotzdem einfach weiter gespidert. Von anderen Grub-Clients kam so gut wie gar nichts.

Außerdem wurden ausschließlich Seiten abgerufen, die es seit über einem halben Jahr nicht mehr gibt, dem Bot war es dabei wurscht, ob er 404, 410 oder 301 vorgesetzt bekam, er hat weiterhin die veralteten URIs aufgerufen und keinen von den neuen.

Inzwischen scheint er sich wieder eingekriegt zu haben und kommt nicht mehr vorbei.

Verfasst: 28.02.2005, 12:26
von axelm
Übrigens kleiner Tipp für die die den Client laufen lassen wenn sie schlafen gehen:

Nach der Installation ist der Client im Default Modus auf sowas wie
50% CPU Usage und 50% Bandbreite nutzen.

legt euch unter dem Reiter "schedule" 2 Job an:

- ab 23:00 100% CPU und Bandbreite nutzen.
- ab 08:00 wieder 50% CPU und Bandbreite nutzen.

damit kommt man leicht in die Top100