Hallo Leute!
Danke für die vielen Replies...
hier ein paar Antworten:
"..Ermittlung aller Backlinks der betreffenden Seite..."
Viel Spaß bei Domains mit 50 000 Seiten...
Sorry für die Ungenauigkeit. Ich meinte nicht alle BLs, sondern lediglich die ersten 1000.
"..Hat irgend jemand hier die Möglichkeit sehr große Mengen Backlinks,
schnell und unbegrenzt abzufragen, oder gar in einer DB vorhanden ?..."
Danke für die Aufklärung!

Ich meinte etwas anderes: Ich weiss, dass hier einige User Backlink-Checker auf ihren Seiten anbieten, -es wäre ein Leichtes, diese Ergebnisse am Ende nicht zu verwerfen, sondern in eine DB zu speichern, mit einem Zeit-Flag zu versehen und alle paar Wochen z.B. mir (in einer Kooperation) zur Verfügung zu stellen
"Content-Analyse..."
Mehr als ein Wortzählen und durch die Häufigkeit bestimmter Wörter das Thema ermitteln,
mehr ist nach dem heutigem Stand der Technik nicht drin.
... nein, ich will auch nicht die Semantik analysieren. Ich bin nicht größenwahnsinnig

Momentan checke ich nur alle Meta-Tags, den Title und alle <h1,2> Überschriften und hervorgehobene Wörter. Diese Keywords werden priorisiert und ganz stupide mit einer Datenbank verglichen. Das ist noch nicht einmal besonders schwer, -ich will den Text gar nicht so genau analysieren, wie es der AdSense Crawler macht. Ich muss ja schließlich auch nicht an verschiedenen Stellen im Text sinnvolle Werbung platzieren...
"..5000 Requests pro Tag..."
Falsch! Ein Vielfaches davon, -durch TOR-Proxies (Onion Routing), wenn Dir das etwas sagt. Auch 50000 Requests sind theoretisch möglich, -ist nur. u.U. zu langsam
Nach welchen Kriterien willst du "Qualität" beurteilen ?
... Durch den CR? Ich habe nie gesagt, dass die inhaltliche, textuelle Qualität einer Seite da mit einfließt... Lediglich die Themenrelevanz, die über bestimmte Parameter gemessen wird. Die kann vereinzelt auch falsch ermittelt sein, aber damit kann ich leben. Hauptsache, dass die große Mehrheit an Keywords auch tatsächlich eine sinnvolle Beziehung zum Content hat.
Kannst ja ein CPU-Sharing programmieren bzw. wiederverwenden oder die DB-Resourcen über DB-Cluster von anderen Rechnern nutzen. Allein wird ein PC oder werden deine PC's nicht all zu weit kommen. Da du parsen musst, brauchst du auch vernünftige Leitungen um die Datenmengen zu übertragen.
Da hast Du natürlich recht! Ich will jedoch erstmal nicht jede einzelne Seite des deutschen WWW analysieren, sondern vielleicht erstmal nur fünftausend Anfragen von SEOs, etc. Wenn jede SEO-Seite im Schnitt 500 Backlinks zurückgibt, dann sind das erstmal nur 2,5 mio mögliche Seiten, die ich im Laufe der Zeit geparst haben muss. Und damit sind nicht die Seiten berücksichtigt, die gleiche Backlinks haben (ich vermute sogar, dass 40% aller BLs einer Seite schon von einer anderen Seite "benutzt"wurden). In diesem Umfang ist das Ganze wie gesagt, noch kein wirkliches Problem, -und wozu braucht der normal-User auch einen CR? Ein wirkliches Problem hätte ich bei 50 mio CR-Abfragen...
Zitat:
Ich vermute sehr stark, das Google diesen Algo schon seit längerem (wenn vielleicht auch ausgefeilter) benutzt
Es gibt Fabeln, die sich einfach nicht ausrotten lassen...
Warum Fabeln? Es ist eine konkrete Vermutung. Nicht mehr.
icht zu feingranulares Themenumfeld. Z.B. „Reisen“, „Finanzen“, etc
Fehler. Das muss ERHEBLICH feiner sein. Trecking durch Chile ist in keinster Weise themenrelevant zu einem Businessmeeting im Hilton Hamburg.
... Dann hoffe ich trotzdem, dass der Webmaster einer solchen Seite sinnvolle Metatags,Titles und <h1,h2> und sonstigen "Hervorhebungen" benutzt. Was wirklich im Content einer Seite steht, interessiert mich nicht sonderlich. Ich versuche keine Semantik-Analyse, sondern benutze Methoden, die mit der jeweilige Webmaster schon etwas vorgekaut hat. Alles Andere wäre (für dieses Projekt) Wahnsinn..
Danke für die vielen PMs! Anscheinend haben wir hier einige Profis im Forum!
Greetz,
Ohara