Selber crawlen? welche hardware und netzanbindungen hast du denn zu hause?hanneswobus hat geschrieben:das crawling etc. dauert natuerlich seine zeit. ich crawle hier selbst und hole mir natuerlich auch noch die datensaetze aus den ueblichen zulieferern.
im internet werden pro minute mehr neue seiten erzeugt (entweder forenpostings, wiki seiten, blog posts, blog kommentare oder ganze neue seiten usw.) als du mit deiner bandbreite und deinen rechenkapazitaeten von zu hause aus je finden(!), filtern (spam), lesen und parsen koenntest. Twitter allein speichert PRO SEKUNDE ~5700 neue tweets; und twitter ist nur die 10th meistebesuchte domain im web; von ein paar millionen ...