Zum Artikel:
Das Ranking / Listing einer Einzelseite (=Seite) erfolgt grundsätzlich aufgrund eines dieser Seite zugewiesenen numerischen Wertes des allg. bekannten PageRank (ist nicht nur der Google-spezifische gemeint). Mit zunehmender Anzahl an zu analysierenden Web-Dokumenten, werden bisherige Berechnungsmodelle aufgrund der Anzahl der benötigten Iterationen (Rechenvorgänge) immer mehr zum Problem; die hierfür benötigte Rechen- und Speicherkapazität würde quasi ins "Unermässliche" steigen und eine realistische und
zeitnahe Kalkulation des für das Ranking benötigten PageRank-Wertes kaum noch zulassen.
Die drei im Dokument erwähnten Wissenschaftler eruiieren in dieser Abhandlung die Möglichkeit einer verschiedenartigen Berechnung des PageRanks, die zwar annähernd genau ist, jedoch weitaus weniger Rechenvorgänge benötigt und somit keine überhöhten Ansprüche an die Rechenkapazität stellt.
"Die Drei" bemühen sich um einen Lösungsansatz (quasi ein "Rechensparmodell") innerhalb komplexer (paralleler) Rechenarchitekturen: Distributed Data Modelling, Distributed Data Warehousing, Multi-Threading (Processing) [Dämonen, etc.], Parallelität der Datenspeicherung und last but not least um "
Parallel Processing". Diese Vorgänge implizieren sowohl multiple Rechenprozesse wie auch (Zwischen)Speicherung von (Zwischen)Ergebnissen, ergo es geht auch um komplexe Datenhaltung -
bidirektionale Replikation, die z.B. von der Standard-MySQL
nicht ermöglicht wird, Master-Slave-Principle - und eine mögliche Minimalisierung der notwendigen Rechenpower.
Für die Studie wurde eine spezielle hardwaretechnische Architektur verwendet, nämlich ein
Beowulf Cluster ( weitere Infos zu diesem Clustering-System:
https://dune.mcs.kent.edu/~farrell/equip/beowolf/ ): diese spezielle Konfiguration mit insgesamt 140 Prozessoren und 280 GB Memory-Speicher ist - bei Anwendung der beschriebenen Rechenmethode - in der Lage, die PageRank-Berechnung für Web- und Linkstrukturen in einer Milliarden-Grössenordnung sehr schnell durchzuführen.
Um diese Rechenvorgänge (lineare Operationen) auf Cluster-Systeme durchführen zu können, haben die Wissenschaftler das allgemein bekannte "Portable, Extensible Toolkit for Scientific Computation (PETSc)" ( weitere Infos:
https://www-unix.mcs.anl.gov/petsc/pets ... mentation/ ) mit individuell durchgeführten Software-Anpassungen verwendet; diese Anpassungen erlauben ihnen genaue und schnelle Zuordnungen vorhandener Vektorelemente zu anderen Bestandteilen der verwendeten Matrix...
Das Ziel ist, algorithmisch gesehen, das lineare Iterationssystem durch Vektor-Multiplikation zu ersetzen (da hierfür weniger Iterationen benötigt werden), dabei benutzt man die Krylovschen Unterraum-Methoden (weitere Infos:
https://doku.b.tu-harburg.de/volltexte/2003/48/ und !!!!
https://www.extenza-eps.com/extenza/loa ... e=abstract !!!! )...Stichwort: Prozess- oder Ordnungsreduktion.
So, da es ziemlich schwer fällt einem Publikum das mathematisch kaum oder unzureichend vorgebildet ist, und dadurch eh Bahnhof versteht, dieses "Zeug" weiterhin zu erklären, will ich es
kurz machen:
"Die Drei" meinen eine Methode (bestehend aus Hardware-Cluster und Rechen-Methoden) gefunden zu haben, die mit verhältnismässig wenig Rechenkapazität, in der Lage ist, komplexe PageRank-Berechnungen schnell und (relativ) wertgenau durchzuführen...
Stichworte für Interessierte: Krylovscher Unterraum (Subspace) | Eigenvector | Beowulf Clustering | Chebyshevsche Iterationen
Wie (nicht nur) hier wieder einmal leicht zu ersehen, entspringen diese Grundlagen zu 95% russischen und israelischen Mathematikern und Programmieren, wie übrigens die besten Entwickler auf SUMA-Gebiet ursprünglich entweder aus Russland (ehemalige UDSSR / Ostblock) oder Israel (=jüdischen Ursprungs sind) stammen...Nix American oder German Geeks...

:-):-)
Mit freundlichen Grüssen und einem grossherzigen Schalom an die bankrotte naturwissenschaftliche Bildungspolitik in Zentraleuropa und USA,
KeepCool