C0ntent-Rank, der intelligente Nachfolger des PageRank

Beitrag von **Ohara** » 25.08.2007, 02:04

Hallo Abakus-Gemeinde!

Ich bin seit längerem am Tüfteln und Erarbeiten eines Algorithmus, -der die Themenrelevanz von Backlinks berücksichtigt. Ich vermute sehr stark, das Google diesen Algo schon seit längerem (wenn vielleicht auch ausgefeilter) benutzt. Ich habe hier mehr dazu geschrieben. Kurz zusammengefasst funktioniert der Algorithmus in etwa so:

Ermittlung aller Backlinks der betreffenden Seite.
Einteilung der Seite in ein bestimmtes, nicht zu feingranulares Themenumfeld. Z.B. „Reisen“, „Finanzen“, etc.
Analyse aller Backlinks, die dem selben Themenumfeld entspringen.
Bilden des Mittelwertes aus allen C-Ranks themengleicher Backlinks.

Bis jetzt läuft dieses Projekt sehr erfolgreich, alleine die Crawling-Geschwindigkeit lässt zu wünschen übrig. Über verschiedene Proxy-Tricks ist es mir mit mittels Yahoo-API auch möglich, mehr als 5000 Requests pro Tag zu abzufragen, auch wenn ich einsehe, dass das nicht die schönste Möglichkeit ist. Die Content-Analyse basiert momentan u.a. auch auf einer dmoz.org - Abfrage (laaaangsam!)

Was ich mir davon erhoffe:
1) Genaue Auskunft über den C-Rank (CR) um Seiten ähnlich wie Google besser bewerten zu können.
2) Ich möchte Content-Authorities ermitteln um optimale Linkpartner zu finden.
3) Ich möchte versuchen, so zu denken, wie Google denkt, um mich zukunftsweisendere Faktoren, als z.B. den PR, verlassen zu können.

Dieses CR-Projekt ist größtenteils in Python geschrieben und bereitet mir momentan sehr viel Freude! (Auch, weil Python einfach Spaß macht

).

Doch bevor ich weiter "draufloshacke", habe ich ein paar Fragen:

- Was haltet Ihr von dieser Idee/diesem Projekt?
- Hat jemand Lust, daran mitzuwirken, mit zu programmieren?
- Hat irgendwer gute Ideen, wie ich mit meinen begrenzten Ressourcen schnellere Crawling-Geschwindigkeiten hinbekommen kann, bzw. die Content-Analyse verbessern kann?
- Hat irgend jemand hier die Möglichkeit sehr große Mengen Backlinks, schnell und unbegrenzt abzufragen, oder gar in einer DB vorhanden?

Ich danke Euch ganz herzlich für Eure Kritik und Anregung!

Greetz,

Ohara

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Dragobert** » 25.08.2007, 07:04

"..Ermittlung aller Backlinks der betreffenden Seite..."
Viel Spaß bei Domains mit 50 000 Seiten...

"schnellere Crawling-Geschwindigkeiten..."
Rechenzentren zulegen, vergleichbar mit Google, so einige zehn tausend Rechner..

"..Hat irgend jemand hier die Möglichkeit sehr große Mengen Backlinks,
schnell und unbegrenzt abzufragen, oder gar in einer DB vorhanden ?..."

Jeder Zweite SEO hier im Forum hat ein komplettes Google-Backup,
auch Google greift manchmal auf diese Reserven zu

(bei den nur ca. 20 000 000 000 indizierten Webseiten - Kinderspiel...)

"Content-Analyse..."
Mehr als ein Wortzählen und durch die Häufigkeit bestimmter Wörter das Thema ermitteln,
mehr ist nach dem heutigem Stand der Technik nicht drin.
Vom z.B. Sinnerfassen (Semantik) einer Webseite ist die heutige Technik genauso weit entfernt,
wie eine Kuh vom Gewinnen eines Schönheitswettbewerbs, trotz des vielen TAM TAM der Programmierer.

Um ähnliche Ziele wie Google zu verfolgen, Google sogar in gewisser Hinsicht übertreffen,
z.B. beim Beurteilen der Qualität einer Webseite, muss man auch technisch und/oder personell
mit Google und Co gleichauf sein. Ein PC zu Hause (z.B. ein Athlon FX... mit 6 - 50 Gigaherz

)
reicht nicht aus. Auch ein doppelt so schneller Server im Internet reicht nicht aus.

"..5000 Requests pro Tag..."
Hast du eine gute Idee gehabt, spricht sich das herum, hast du locker das Zehnfache am Tag...
Müßtest also spätestens hier selbst spidern. Willst / musst du aber Seiten selbst spidern,
kommst du nicht an alle Seiten heran, da Webmaster dich u.U. per .htaccess aussperren,
weil sie dich nicht kennen oder haben wollen.

Idee (von der Grundidee her) ist gut, aber allein nicht zu realisieren.
Allein das Datenaufkommen, Beurteilen usw.

Weiter:
Nach welchen Kriterien willst du "Qualität" beurteilen ?
Bestenfalls nach den eigenen Maßstäben. Wer sagt dass diese neutral genug sind ?
Wer sagt, dass die eigenen Maßstäbe gut "ausgebildet" sind, also nicht einseitig geprägt ?
Hier spielt auch der "Geschmack" eine Rolle.

P.S.
DMOZ ist ein gutes Beispiel dafür wo Gute Seiten UND Schrott nebeneinander stehen.

Beitrag von **fred_bacher34** » 25.08.2007, 07:46

Hi Ohara, ich finde auch, dass die Grundidee gut ist.

Kannst ja ein CPU-Sharing programmieren bzw. wiederverwenden oder die DB-Resourcen über DB-Cluster von anderen Rechnern nutzen. Allein wird ein PC oder werden deine PC's nicht all zu weit kommen. Da du parsen musst, brauchst du auch vernünftige Leitungen um die Datenmengen zu übertragen.

Viel Erfolg
Uwe

P.S.: Halt uns auf dem Laufenden.

von **Anzeige von ABAKUS** »

Beitrag von **bloghype** » 25.08.2007, 07:47

Ich vermute sehr stark, das Google diesen Algo schon seit längerem (wenn vielleicht auch ausgefeilter) benutzt

Es gibt Fabeln, die sich einfach nicht ausrotten lassen...

Beitrag von **ole1210** » 25.08.2007, 09:23

Ermittlung aller Backlinks der betreffenden Seite.

Unmöglich! Somit ist deinem Projekt eigentlich schon das Wasser abgegraben.

icht zu feingranulares Themenumfeld. Z.B. „Reisen“, „Finanzen“, etc

Fehler. Das muss ERHEBLICH feiner sein. Trecking durch Chile ist in keinster Weise themenrelevant zu einem Businessmeeting im Hilton Hamburg. Wer ein Konto eröffnen möchte, braucht keine Infos über Kreditkarten. Nur um deine beiden Punkte mal zu nennen.

um Seiten ähnlich wie Google besser bewerten zu können.

Da du keine Ahnung hast, wie google wertet, sollzte es schwer sein, einen Also zu erstellen, der ähnlich wertet. Oder du hast viel Glück.

Goolgle liefert dir doch schon die perfekte Möglichkeit um die Themenrelevanz von BLs zu bewerten. Du suchst beispielsweise nach them,enrelevanten Links zu "Last Minute". Also gehst du zu google, suchst nach "Last Minute" und bekommst eine schöne auflistung der relevantesten Seiten.

Beitrag von **Gretus** » 25.08.2007, 09:50

bloghype hat geschrieben:
Ich vermute sehr stark, das Google diesen Algo schon seit längerem (wenn vielleicht auch ausgefeilter) benutzt
Es gibt Fabeln, die sich einfach nicht ausrotten lassen...

Ich denke, dass Google die Themenrelevanz von BL berücksichtigt. Was bei schlechter Nachbarschaft geht, geht auch bei guter

Grüße

Gretus

Beitrag von **Goethe** » 25.08.2007, 10:31

Hi Ohara,

die Idee ist interessant, aber nicht alles was interessant ist , bringt einen auch vorwärts. Hätte ich noch 500 Jahre auf dieser Erde vor mir .... nein, geht auch nicht, dann müsste ich wahrscheinlich doch an die Umwelt denken.
Viel Erfolg dabei! Berichte mal wieder darüber.

Beitrag von **grossy** » 25.08.2007, 10:54

Hi,

wir könne uns ja Zusammenschließen, wir Programmieren gerade auch unser eigene Suchmaschine:

https://www.abakus-internet-marketing.d ... hp?t=45164

Wir lassen Dich aber nur mitmachen, wenn du ein Rechenzentrum hast!!

Beitrag von **bloghype** » 25.08.2007, 11:01

Ich vermute sehr stark, das Google diesen Algo schon seit längerem (wenn vielleicht auch ausgefeilter) benutzt

Es gibt Fabeln, die sich einfach nicht ausrotten lassen...

Ich denke, dass Google die Themenrelevanz von BL berücksichtigt. Was bei schlechter Nachbarschaft geht, geht auch bei guter

Meine Aussage bezog sich da mehr aufs Wörtchen "ausgefeilter" - das ist eine Mär...

Beitrag von **chinsurah** » 25.08.2007, 12:15

Die schlechte Nachbarschaft hat aber mit Themenrelevanz überhaupt nichts zu tun. Manchen Suchmaschinen wurden schon oft semantische Fähigkeiten nachgesagt, bei Google ist das aber garantiert ein Märchen. Da gibt es keine semantische Indexierung werder "latent" noch direkt und die inhaltliche Relevanz der Links spielt keine Rolle.
Themenrelevante Links werden allerdings meistens im Seiteninhalt anders positioniert, das kann dann schon einen besseren Effekt haben (verglichen mit Footer-Links am Ende der Seite).

chinsurah

Beitrag von **Ohara** » 25.08.2007, 12:33

Hallo Leute!
Danke für die vielen Replies...

hier ein paar Antworten:

"..Ermittlung aller Backlinks der betreffenden Seite..."
Viel Spaß bei Domains mit 50 000 Seiten...

Sorry für die Ungenauigkeit. Ich meinte nicht alle BLs, sondern lediglich die ersten 1000.

"..Hat irgend jemand hier die Möglichkeit sehr große Mengen Backlinks,
schnell und unbegrenzt abzufragen, oder gar in einer DB vorhanden ?..."

Danke für die Aufklärung!

Ich meinte etwas anderes: Ich weiss, dass hier einige User Backlink-Checker auf ihren Seiten anbieten, -es wäre ein Leichtes, diese Ergebnisse am Ende nicht zu verwerfen, sondern in eine DB zu speichern, mit einem Zeit-Flag zu versehen und alle paar Wochen z.B. mir (in einer Kooperation) zur Verfügung zu stellen

"Content-Analyse..."
Mehr als ein Wortzählen und durch die Häufigkeit bestimmter Wörter das Thema ermitteln,
mehr ist nach dem heutigem Stand der Technik nicht drin.

... nein, ich will auch nicht die Semantik analysieren. Ich bin nicht größenwahnsinnig

Momentan checke ich nur alle Meta-Tags, den Title und alle <h1,2> Überschriften und hervorgehobene Wörter. Diese Keywords werden priorisiert und ganz stupide mit einer Datenbank verglichen. Das ist noch nicht einmal besonders schwer, -ich will den Text gar nicht so genau analysieren, wie es der AdSense Crawler macht. Ich muss ja schließlich auch nicht an verschiedenen Stellen im Text sinnvolle Werbung platzieren...

"..5000 Requests pro Tag..."

Falsch! Ein Vielfaches davon, -durch TOR-Proxies (Onion Routing), wenn Dir das etwas sagt. Auch 50000 Requests sind theoretisch möglich, -ist nur. u.U. zu langsam

Nach welchen Kriterien willst du "Qualität" beurteilen ?

... Durch den CR? Ich habe nie gesagt, dass die inhaltliche, textuelle Qualität einer Seite da mit einfließt... Lediglich die Themenrelevanz, die über bestimmte Parameter gemessen wird. Die kann vereinzelt auch falsch ermittelt sein, aber damit kann ich leben. Hauptsache, dass die große Mehrheit an Keywords auch tatsächlich eine sinnvolle Beziehung zum Content hat.

Kannst ja ein CPU-Sharing programmieren bzw. wiederverwenden oder die DB-Resourcen über DB-Cluster von anderen Rechnern nutzen. Allein wird ein PC oder werden deine PC's nicht all zu weit kommen. Da du parsen musst, brauchst du auch vernünftige Leitungen um die Datenmengen zu übertragen.

Da hast Du natürlich recht! Ich will jedoch erstmal nicht jede einzelne Seite des deutschen WWW analysieren, sondern vielleicht erstmal nur fünftausend Anfragen von SEOs, etc. Wenn jede SEO-Seite im Schnitt 500 Backlinks zurückgibt, dann sind das erstmal nur 2,5 mio mögliche Seiten, die ich im Laufe der Zeit geparst haben muss. Und damit sind nicht die Seiten berücksichtigt, die gleiche Backlinks haben (ich vermute sogar, dass 40% aller BLs einer Seite schon von einer anderen Seite "benutzt"wurden). In diesem Umfang ist das Ganze wie gesagt, noch kein wirkliches Problem, -und wozu braucht der normal-User auch einen CR? Ein wirkliches Problem hätte ich bei 50 mio CR-Abfragen...

Zitat:
Ich vermute sehr stark, das Google diesen Algo schon seit längerem (wenn vielleicht auch ausgefeilter) benutzt
Es gibt Fabeln, die sich einfach nicht ausrotten lassen...

Warum Fabeln? Es ist eine konkrete Vermutung. Nicht mehr.

icht zu feingranulares Themenumfeld. Z.B. „Reisen“, „Finanzen“, etc
Fehler. Das muss ERHEBLICH feiner sein. Trecking durch Chile ist in keinster Weise themenrelevant zu einem Businessmeeting im Hilton Hamburg.

... Dann hoffe ich trotzdem, dass der Webmaster einer solchen Seite sinnvolle Metatags,Titles und <h1,h2> und sonstigen "Hervorhebungen" benutzt. Was wirklich im Content einer Seite steht, interessiert mich nicht sonderlich. Ich versuche keine Semantik-Analyse, sondern benutze Methoden, die mit der jeweilige Webmaster schon etwas vorgekaut hat. Alles Andere wäre (für dieses Projekt) Wahnsinn..

Danke für die vielen PMs! Anscheinend haben wir hier einige Profis im Forum!

Greetz,
Ohara

Beitrag von **MonikaTS** » 25.08.2007, 12:36

wo steht bittschön geschrieben, dass dmoz org irgendwas über die tatsächliche Wichtigkeit einer Seite aussagt?

Du hast schon für mich sehr irrige Annahmen für dieses Projekt.

ehrlich - bevor Du Dich da Stunden von irgendwas versteifst,
sieh Dir die Websites an - erkenne - und folge Deiner Erkenntnis

man kann Seo nicht auf Tools beschränken, wer dies macht beschränkt sich und seinen Erfolg

lg

Beitrag von **Ohara** » 25.08.2007, 12:41

wo steht bittschön geschrieben, dass dmoz org irgendwas über die tatsächliche Wichtigkeit einer Seite aussagt?

...hat nichts damit zu tun! Benutze ich auch nicht dafür. Was bei DMOZ ganz gut klappt, ist die Kategoriesierung einer Webseite. Das machen Moderatoren, die falsche Kategorien überhaupt nicht mögen...
Und genau das mache ich mir zu nutze um z.B. über ein Keyword auf eine Kategorie zu schließen.

Sorry, wenn ich mich ungenau ausgedrückt habe...

Beitrag von **Zerstreuter** » 25.08.2007, 16:16

Zum Thema 'Themenrelevanz':
1. Schritt: Wie jeder Webkatalogbetreiber legen wir gedanklich ein Duzent oder mehr Kategorien fest. Diesen Kategorien werden nun eine möglichst große Zahl an Dokumenten (Webseiten) zugeordnet. Danach ermitteln wir für jede der Kategorien die Wortverteilung der darin enthaltenen Dokumente.

2. Schritt: Man nehme ein unbekanntes Dokument und ermittelt auch hier die Wortverteilung. Danach vergleicht man es mit den Wortverteilungen der in Schritt 1 ermittelten Kategorien. Das Ergebnis nennt sich: Termvektor

3. Schritt: Aufgrund des Termvektors kann man nicht bestimmen, in welche Kategorie / Themenbereich das Dokument einzuordnen ist, aber das muss man auch gar nicht, da wir ja nicht ein Dokument einem Thema zuordnen, sondern zwei Dokumente miteinander vergleichen wollen. Wenn man zwei Vektoren hat (in unserem Falle besagte Termvektoren) dann kann man den Winkel zwischen beiden Vektoren ausrechnen. Je größer der Winkel umso mehr zeigen die Vektoren in andere Richtungen. In unserem Falle bedeutet dies: je kleiner der Winkel umso themenrelevanter.

Damit wäre die Frage geklärt, ob man die Themenrelevanz zweier Dokumente (Webseiten) bestimmen kann mit einem klaren 'JA' beantwortet und auch die Frage, wo die Grenze zwischen 'themenrelevant' und 'nicht themenrelevant' ist (es gibt keine Grenze).

Das Ganze beruht im Grunde nur auf ein bischen 'Wörter zählen', 'in's Verhältnis setzen' und ein klein wenig 'Vektorrechnung'.

Die Grundlagen sind seit den 70er Jahren bekannt und trivial - die technische Umsetzung ist es allerdings nicht. Das Google die Technik beherrscht sieht man allerdings recht gut bei Google News.

Beitrag von **Ohara** » 25.08.2007, 17:28

@Zerstreuter:

Vielen Dank! Klingt nach einer sehr fundierten Aussage, -dafür lieb' ich dieses Forum!

Ich werde mal mit den Mathematikern auf der Arbeit reden und ein bischen nach Termvektoren recherchieren.

Greetz,

Ohara