Seite 1 von 2
Eigener Robot ?
Verfasst: 10.01.2004, 11:40
von dirk
Hi,
hat von Euch eigentlich schonmal jemand mit dem Gedanken gespielt, einen eigenen Robot / eine eigene Suchmaschine zu programmieren ?
Ich baue grade an einem Link-Directory - was ja eher trivial ist aber nix mit nem richtigen Robot zu tun hat. Ich würde dieses Directory gerne als Start/Basis für einen Robot verwenden.
Je laenger ich drueber nachdenke umso komplizierter wird's allerdings

Von daher suche ich Leute zum Erfahrungs-/Gedankenaustausch.
Gruss,
Dirk
Verfasst: 10.01.2004, 18:47
von chrise
Dann mal viel Erfolg...
Wir haben ein paar

(siehe Profil)
Verfasst: 10.01.2004, 19:40
von dirk
ihr habt ein paar was ?
Verfasst: 10.01.2004, 19:43
von chrise
'suchmaschinen'/'robots'.
bist du dir deiner fragen nicht bewusst?
----------------------------------------------
In welchen Grössenordnungen/mit welchem Hintergrund gehst du an diese Aufgabe heran?
Directory Software
Verfasst: 10.01.2004, 20:00
von Brahms
Hallo Dirk,
vielleicht hilft Dir
https://www.gossamer-threads.com . Soweit ich weiss, gibt es für deren Produkt Links SQL optional auch ein Spider-Plugin. Software sollte so schlecht nicht sein, hat ein PR8.
Gruss,
Johannes
Verfasst: 10.01.2004, 20:19
von dirk
chrise hat geschrieben:'suchmaschinen'/'robots'.
bist du dir deiner fragen nicht bewusst?
irgendwie kann ich deinen postings nicht ganz folgen.
Re: Directory Software
Verfasst: 10.01.2004, 20:20
von dirk
Brahms hat geschrieben:vielleicht hilft Dir
https://www.gossamer-threads.com . Soweit ich weiss, gibt es für deren Produkt Links SQL optional auch ein Spider-Plugin. Software sollte so schlecht nicht sein, hat ein PR8.
nene ... darum gehts nicht. ich würde sowas gerne selbst machen wollen. irgendwas fertiges einsetzen kann ja jeder ...
Verfasst: 10.01.2004, 20:37
von chrise
dirk: ihr habt ein paar was ?
chrise: 'suchmaschinen'/'robots'.
wo ist das unverständnis?
noachmal: In welchen Grössenordnungen/mit welchem Hintergrund gehst du an diese Aufgabe heran?
Verfasst: 11.01.2004, 08:21
von bull
gossamer-threads betreiben übles logspamming für ihr produkt, die würde ich a priori nicht unterstützen. sondern eher sowas wie libwww für meine verhältnisse umbauen.
Verfasst: 11.01.2004, 12:41
von Michael
Hi,
habe schon mal eine SUMA programmiert. War zwar nicht direkt für Webseiten sondern eher für Schmuddelbilder (pfui pfui pfui - Ist schon lange her - Ich war jung und brauchte das Geld - Bitte verzeiht mir) aber die war nicht sehr performant. Ich habe mit der SUMA ca. 500-600MB Bilder pro Tag geschafft. Eine Richtige SUMA muss wesentlich mehr bringen.
Stelle Dir mal vor, Du hast ca 100Mio Pages im Index (ein ca. Wert für eine Deutsche SUMA) und musst mindestens die Hälfte davon einmal pro Monat aktualisieren. Das sind ca. 20 Seiten abrufe pro Sekunde (grob überschlagen). Das schaffe ich mit meiner Software einfach nicht. Selbst wget (ein Tool das nur Webseiten aus dem Internet herunterlädt) schafft das nicht.
Das nächste Problem ist der Speicher. Die SUMA muss in wenigen Millisekunden mehrere Gigabyte Daten durchsuchen und die relevanten Seiten finden. OK, das ist mit ein wenig Struktur ganz gut machbar, aber dann kommt das größte und komplexeste Problem. Die Bewertung einer Seite. Und hier habe ich nicht einmal eine grobe Ahnung was da auf einen zukommt.
Aber Wenn sich ein paar verrückte finden, bin ich natürlich wieder dabei.

Verfasst: 29.01.2004, 18:08
von stalker
Ich bin derzeit auch rein spasseshalber an der roboterentwicklung.
Mein Problem derzeit ist allerdings noch wie man die Daten am effektivsten speichert um diese später schnell verarbeiten zu können.
Würde mich über ein paar Literaturverweise freuen, da die Ausführungen auf den Uni Seiten viel zu oberflächlich sind.
Im übrigen hat stefan(suchmaschinentricks.de) mit neomo ja schon seine Suchmaschine am Start und diese geht ja bald auch in die öffentliche Testphase.
Verfasst: 29.01.2004, 22:14
von chrise
@stalker
Das Grün ist ja augenfeindlich(neomo).

Verfasst: 30.01.2004, 13:22
von stalker
ist ja auchnicht von mir ;D aber die Resultate sollen schon nicht schlecht sein
@chrise
wie handhabt ihr denn die indexbildung

bin immernoch auf der suche nach geeigneter Literatur :/
Verfasst: 31.01.2004, 10:06
von viggen
stalker hat geschrieben:
bin immernoch auf der suche nach geeigneter Literatur :/
Eine interessante Abhandlung über Suchmaschinen, ob es das ist was du suchst weiss ich nicht, auf jeden fall sehr interessant (englisch)
Verfasst: 31.01.2004, 13:13
von stalker
wirklich interessant
aber eider ist das meiste schon bekannt :/
Aber die externen Verweise bieten auch nocheinmal viel Stoff:)