Beitrag
von nerd » 29.05.2012, 00:49
ich frage mich immer, welche vorstellungen manche hier vom internet haben, wenn sie nach einem "backlinkchecker fuer den hausgebrauch, der ALLE links findet" schreien der vom heimischen desktop pc aus laufen soll.
Nicht nur musst du alle webseite laden, parsen und die links lokal speichern, sondern vor jedem aufruf auch noch prioritaeten setzen wie "wichtig" eine seite ist und ob und pruefen ob und wann du diesen link schon gecrawlt hast, entscheiden ob man die seite neu lesen will (neuer content, z.b. neue kommentare in blogs, neue postings in foren) und die links darin re-indizieren.
Ich hatte mal spassenhalber einen bot geschrieben der ein grosses community board nach links durchsucht hat. Selbst wenn der bot pro sekunde mehr als 10 pages geladen hat ist er nie fertig geworden, weil er jedesmal wenn er am ende angekommen ist wieder ein paar tausend postings neu erstellt oder geupdated wurden.
Dabei fielen pro crawl durchlauf ein paar hundert MB an daten an. Diese muessen nach links durchsucht und gespeichert werden; oder zumindest der hash davon. Und glaube mir; selbst wenn deine DB auf einen dedicated server ausgelagert ist und die tables ordentlich indiziert ist und fuer die abfragen optimiert sind, wird deine wald-und-wiesen DB installation dir dabei nicht lange freude machen. Bis zu 4 millionen eintraege im link-table werden vielleicht noch ok sein da dein DSL16000 anschluss hier wohl eher der limitierende faktor sein wird; danach gehts aber abwaerts mit der performance wenn gleichzeitig neue eintraege hinzugefuegt und indexiert werden wollen, waehrend ein andere thread aus dem selben table lesen will.
Die webseite um die es ging hat im moment "nur" einen alexa rank von 300+ (global); jetzt rechne dass mal bitte auf das gesammte internet um.
Kauf dir eine abo fuer einen professionellen BL-checker. Wenn dir die $50-$200/monat dafuer zu teuer sind, dann wird deine thema wohl nicht soviel wert sein dass sich der aufwand der backlink-analyse ueberhaupt erst lohnt.