Ich hab mir überlegt einen spider proggen zu lassen der im Internet nach RSS Feed URLs sucht für meine rss-suchmaschine.Er soll nicht tag und nacht spider habe mir gedacht das ich einstellen kann das er zb nach 1000 Feed URLs spidern soll ich ihn manuell starte und das wars.
Jetzt meine frage:
Ist dies ohne weiteres machbar?So einen spider zu programmieren oder bedeutet das viel programmier arbeit??
Da ich meinen vor kurzem wieder abgestellt habe, hier mal ein paar Gedanken und Hinweise, die man dabei beachten sollte.
Nach welchen Kriterien bestimmst Du oder der Spider, ob der "vorliegende" Feed passend für Dein Verzeichnis ist?
Wie unterscheidet der Spider zwischen Spam und Ham?
Ist es ein spezialisiertes Verzeichnis, dann ist diese Frage nicht so gewichtig. Wie schafft es der Spider eine ausgewogene Themenvielfalt an einem Tag / einer Woche zusammen zu tragen.
1000 Feeds sind ja schnell zusammen getragen, wenn die Programmierung stimmt. Da der Spider diese Feeds aber nur zusammen trägt .... Wie willst Du diese 1000 Feeds richtig einsortieren bzw. administrieren?
Der Spider benötigt etwa 2 Sekunden wenn es viel ist, um einen Feed ranzuschaffen. Um den Feed zu sichten und einzuordnen, wird ein Mensch etwa 2 Minuten oder mehr benötigen
Du siehst schon auf was das hinausläuft Bei all den Fragen unterstelle ich natürlich, dass Du da was ernsthaftes, sauberes hinstellen möchtest. Und bis hierhin sind es Dinge, um die Du dir, als Betreiber Gedanken machen solltest.
Den Programmieraufwand abzuschätzen, ist nicht sooo einfach. Der eine wird so sagen der andere so. Auch bei den in Frage kommenden Programmier- und Skriptsprachen wird es sehr unterschiedliche Meinungen geben.
Der Junge, der das macht oder machen möchte, sollte jedenfalls sich mit den notwendigen Protokollen auskennen. Er sollte die verschiedenen Strukturen der möglichen Feeds und der HTML Seiten aus dem FF kennen und können. Datenbankkenntnisse setz ich sowieso voraus. Was noch ein heikles Thema sein dürfte, ist das Chaching der gespiderten Daten. Das einfach so mal schnell in eine DB rein zupacken, ist nicht unbedingt die cleverste Vorgehensweise. Ja und man sollte ja immer vom positiven ausgehen. Und so könnte ja sein, dass ein Server mal nicht mehr reicht. Das heisst, er sollte schon von vorneherein, aufzeigen können, inwiefern die ganze Geschichte skalierbar ist.
Das alles sind jetzt eigentlich nur die handwerklichen Voraussetzungen. Es gehört noch ne Portion Gehirnschmalz dazu, um so etwas umzusetzen. Wie schon gesagt, das hört sich teuer an.
Ich habe mein Projekt vorerst einmal gestoppt, weil mir die Zeit fehlt, um das alles bis ins letzte Detail zu administrieren und die noch vorhandenen Schwächen im Spider noch auszubügeln. Und ich kenne keinen Programmierer, dem ich die Weiterentwicklung anvertrauen würde, der zudem auch noch bezahlbar wäre.