Die Aussagen in dem PDF-Dokument sind 'etwas andere'. Das Problem ist nicht die Theorie - die problematischen Netzstrukturen sind schon lange bekannt. Sondern das Problem liegt darin, daß die rechnerische Ermittlung solcher 'strongly connected components' (SCC, stark zusammenhängende Komponenten - siehe
Grundlegende Graphenalgorithmen bislang aufwendig war - immerhin handelt es sich um einen etwa 4 Milliarden Dimensionen umfassenden Vektorraum. Die PR-Berechnung entspricht der Ermittlung des Eigenvektors zum Eigenwert 1. Der zweite Eigenwert war bislang unbekannt, zu ihm gehören jedoch Eigenvektoren, denen solche SCC entsprechen.
Der bewiesene Hauptsatz besagt, daß - unter sehr schwachen, im Web erfüllten Voraussetzungen - der 2. EW gleich c, normalerweise = 0.85, also nicht geschätzt werden muß, sondern in voraus bekannt ist.
Folgerungen:
1. Zur Berechnung des PR wird aktuell das Potenzverfahren angewandt - Matrix * Vektor, bis sich der Vektor nicht mehr ändert. Die Konvergenz (wieviele Rechenschritte - 5, 15, 100 - sind notwendig) hängt vom 2.EW ab. Damit können weitaus mehr Testrechnungen durchgeführt werden, da man für diese ein höheres c (0.95) verwenden kann und nun besser abschätzen kann, wo die Iteration abgebrochen werden darf, ohne die Relevanz der Ergebnisse zu gefährden. Zur Ermittlung kritischer Netzstrukturen genügt das.
2. Numerische Mathematik hat es immer mit Rechenungenauigkeiten zu tun. Weiß man, daß der 2.EW = c sein muß, dreht sich die Situation um - jeder Eigenvektor zu diesem Eigenwert ist kritisch - diese lassen sich weitaus schneller ermitteln, wenn man den EW kennt. Früher hat man hundertmal iteriert und wußte nichts genaues, heute kriegt man die Kandidaten schneller und weiß definitiv, daß da sehr enge Linkbeziehungen existieren.
[Edit - da war ein etwas ungenauer Teilsatz]
3. Eher belustigte Anmerkungen: (1) Eine 'single, unique Domain' hat dieses Problem nicht. (2) Damit existiert eine Grundlage, um dritte und vierte Eigenwerte näher einschränken zu können und damit weitere Linkspam-Strukturen zu identifizieren. (3) Wiederholt gibt es in Foren Hinweise, daß google neuerdings so langsam beim Spidern sei - obwohl bsp. ein Link von einer hoch bewerteten Domain gesetzt sei. Wahrscheinlich berücksichtigt google längst die PR-Quelle. (4) Linkt eine Domain nur auf sehr hochwertige Linkziele, dann ist der Weg zurück über dort ausgehende Links sehr weit - damit sind zugehörige Eigenwerte eines Teilraums ziemlich klein, also harmlos. (5) Der Beweis wurde im März 2003 veröffentlicht. Im Mai 2002 hat derselbe Verfasser das Dokument zum
topic-sensitive-pagerank veröffentlicht, seit 10/2003 ist er Mitarbeiter bei google.
------------
Gruß, Jürgen Auer