Hi,
habe schon mal eine SUMA programmiert. War zwar nicht direkt für Webseiten sondern eher für Schmuddelbilder (pfui pfui pfui - Ist schon lange her - Ich war jung und brauchte das Geld - Bitte verzeiht mir) aber die war nicht sehr performant. Ich habe mit der SUMA ca. 500-600MB Bilder pro Tag geschafft. Eine Richtige SUMA muss wesentlich mehr bringen.
Stelle Dir mal vor, Du hast ca 100Mio Pages im Index (ein ca. Wert für eine Deutsche SUMA) und musst mindestens die Hälfte davon einmal pro Monat aktualisieren. Das sind ca. 20 Seiten abrufe pro Sekunde (grob überschlagen). Das schaffe ich mit meiner Software einfach nicht. Selbst wget (ein Tool das nur Webseiten aus dem Internet herunterlädt) schafft das nicht.
Das nächste Problem ist der Speicher. Die SUMA muss in wenigen Millisekunden mehrere Gigabyte Daten durchsuchen und die relevanten Seiten finden. OK, das ist mit ein wenig Struktur ganz gut machbar, aber dann kommt das größte und komplexeste Problem. Die Bewertung einer Seite. Und hier habe ich nicht einmal eine grobe Ahnung was da auf einen zukommt.
Aber Wenn sich ein paar verrückte finden, bin ich natürlich wieder dabei.
