Zu schneller Linkaufbau wirklich schädlich?

Beitrag von **MeNoZony** » 31.08.2010, 20:19

Ich mache das nun schon seit ein paar Tagen und habe Zugriff auf Datenbestände aus ca. 15 Jahren.
Ich sage daher nichts fundamental Neues wenn ich ich einfach mal behaupte, daß sich die Situation grundsätzlich verändert hat, das ist allein schon eine Frage der Logik, und sich die Veränderung in letzter Zeit rasant beschleunigt hat. Stellt sich zwangsläufig die Frage nach den Gründen.
Nehmen wir mal o.g. Beispiel mit 900K BLs. Wenn ich diese BLs also fundamental in einer Tiefe von nur 2-3 Ebenen auswerten will und das nur hochrechne auf wirklich interessante Domains dann übersteigt bereits das eigentlich schon Kapazitäten im logischen Sinne. Und einmaliges Auswerten reicht ja nicht- das muß ständig neu erfolgen, je häufiger um so besser.
Ich darf ausserdem nicht nur von den Kapazitäten eines Rechnerparks ausgehen, ich muß ja auch von den Verbindungsqualitäten ausgehen.
Schreibe einen Spider und kontrolliere danach, wieviele TimeOuts generiert werden und Du weißt dann, was nach menschlichem Ermessen überhaupt geht und was nicht.
Die Quote von gesetzten Backlinks, die von Google innerhalb 90 Tagen (eine von mir willkürlich gesetzte Marke) erkannt wird, verschlechtert sich seit einiger Zeit ständig, in letzter Zeit ist diese Quote unerträglich schlecht geworden.
Das bestätigt meine o.g. These.
Es sagt aber auch aus, daß sich der Moloch Google langsam vollgefressen hat und durch den Mechanismus PR peu a peu selbst blockiert und letztendlich lahmlegt.
Allein die schiere Masse an vorhandenem Datenmaterial (ich spreche ausdrücklich nicht nur von Seiten) macht es unmöglich, ein früher einmal funktionierendes Konstrukt PR auch nur annähernd funktionabel zu halten.
Deshalb muß man sich von der Idee verabschieden, daß sowas heute noch funktioniert weil es einfach vom Datenbestand nicht mehr funktionieren kann.
Daher muß man, so lange der PR noch zur Anwendung kommt und/oder bis sich Google von seiner jetztigen Logik der Bewertung verabschiedet, auch in puncto Linksetzung umdenken, weil das reine Setzen von Links deswegen nicht mehr funktionieren wird, weil diese einfach nicht mehr gefunden werden.
Nach meinem Dafürhalten werden sich nur die im Mechanismus PR noch geschmeidig bewegen können, die über Linkquellen einer bestimmten Qualität verfügen- System 08/15 wird immer weniger funktionieren.
Glücklich die, die über entsprechende Quellen oder Dienstleister mit solchen Quellen verfügen...

von **Anzeige von ABAKUS** »

Beitrag von **Beloe007** » 31.08.2010, 22:19

MeNoZony hat geschrieben:Das bestätigt meine o.g. These.

Die Einführung von Nofollow hat sicher auch seine Gründe

Aber "voll gefressen" glaube ich nicht, eher "unmöglich" Links sinnvoll zu werten...

Beitrag von **MeNoZony** » 01.09.2010, 00:31

Beloe007 hat geschrieben: Die Einführung von Nofollow hat sicher auch seine Gründe

Klar. Grund eins bis zehn: macht Ihr Seitenbetreiber mal unsere Drecksarbeit, danke vielmals dafür.

Beloe007 hat geschrieben: Aber "voll gefressen" glaube ich nicht, eher "unmöglich" Links sinnvoll zu werten...

Es geht mir in Bezug auf vollgefressen nicht primär um die Links sondern darum, daß ab einem bestimmten Punkt das System Google in der jetzigen Form nicht mehr funktionieren kann, weil einfach zuviel Datenmaterial vorhanden ist.
Grundidee: liefere dem User nützliche Suchergebnisse zu seiner Frage.
Problem früher: eigentlich keines weil das vorhandene Material überschaubar war.
Problem heute: zuviel davon und von dem zuviel davon zuviel Müll, den Google letztendlich selbst herausgefordert hat.
Ich kann heutzutage einfach keine universelle Suchmaschine mehr betreiben: das kollabiert entweder (und das möglicherweise und sogar wahrscheinlich von den meisten Usern unbemerkt- es kann also sein, daß Google bereits kapituliert hat und kaum einer weiß es) oder wird vom eigentlichen Sinn her ad absurdum geführt weil es zu viele sinnvolle Antworten gibt.
Ich müsste (Konkunktiv!) als Suchmaschine eigentlich differenzieren. Den (eher unbeholfenen und mitleiderregenden) Versuch macht man ja mit der Herdenabfrage vorgegebener Vorschläge im Suchschlitz, dem ein großer Teil der Herde auch bereitwilligt folgt.
Nur, wie das bei Herden so ist: wer hinten läuft frißt die Scheiße der Rinder davor.
Ein anderer Denkansatz wäre intelligente Programmierung, die nicht nur einzelne Keys auseinanderhalten kann sondern Sinnzusammenhänge.
Das funktioniert bis heute nicht nur nicht- ich habe bei Suchabfragen immer mehr den Eindruck, daß man diese Ansätze gar nicht mehr verfolgt weil es abseits vom Mainstream immer mehr schrottig wird- Richtung shopping, shopping, shopping etc.
Erst wenn Seiten semantisch vernünftig analysiert werden können werden zum Einen die Suchergebnisse vielleicht an das herankommen, was man von einem Betrieb dieser Größe erwarten kann und auf der anderen Seite werden mehr Seitenbetreiber die Gelegenheit bekommen, gefunden zu werden, und zwar dann nicht nach dem Prinzip uralter Universitätsabhandlungen.
Deswegen glaube ich beinahe, daß diese ganze Linksetzerei immer mehr in Richtung Roulette geht.
Oder Masse.
Oder massenhaft Roulette.
Oder, mit anderen Worten: kloppt raus bis die Schwarte kracht.

von **Anzeige von ABAKUS** »

Beitrag von **Beloe007** » 01.09.2010, 09:07

So was wie Wikipedia, eine der wenigen Konstanten im Netz

X hat geschrieben:..., dabei ist das der einzige Fels in der Brandung gegen die gegenseitige Verdummung im Internet.

(Zumindest der Ansatz ist gut)

Ich glaube aber eher das es nichts mit dem Datenaufkommen zu tun hat, da werden sie sicher noch genügend Kapazitäten haben, zur Not eben einen Service einstellen.

Das Hauptproblem "Früher" <-> "Heute":
Früher gab es wenige Seiten zu einem Thema, keine Kunst die paar anzuzeigen, wird schon das Richtige bei sein.
Heute gibt es tausende Seiten zum selben Thema, dort die besten 10 Treffer zu liefern...

Früher: Problem, SUMA-Suche, nichts gefunden -> Frage -> Link zur Lösung, alternativ eine qualifizierte Antwort.
Heute: Problem, evtl SUMA-Suche, nichts gefunden -> Frage -> viele unqualifizierte Antworten, von einem Ahnungslosen ein "geht nicht" über alle weiteren Ausprägungen...

Ich merke es selbst, wenn ich mich auf die Suche nach Lösungen begebe, seit Jahren wird es immer schwieriger Lösungen zu finden, weil einfach jeder Depp eine Antwort (Mein Favorit: Ich weiß nicht wie es geht, also "geht es nicht") geben kann und jede einzelne Frage in 100erten Foren gestellt wird und man selbst schwer unterscheiden kann "hat der jetzt Ahnung oder nicht", wie soll das eine Suchmaschine können?

Allein wenn man sich das Abakus-Forum anschaut, da werden immer und immer wieder dieselben Fragen gestellt und oft kommen unterschiedliche Antworten... je nachdem wer gerade Lust hat zu antworten. -> Wie soll eine SUMA entscheiden welcher Thread nun die beste Antwort liefert? (Außer über Try & Error, Nutzer sucht weiter also Thread scheiße... kann aber auch heißen, will sich weiter ins Thema vertiefen

)

Der größte Vorteil des Internet, wissen für alle, ist meiner Meinung nach zu seinem größten Nachteil geworden. Die billige Hardware hat ihren Teil dazu beigetragen, jeder kann ein Forum installieren, jeder kann einen Blog installieren, jeder kann einen Forenaccount erstellen.
Auf einer IT-Konferenz würde man auch nicht den Nichtswissenden, der gerade zu viel Zeit hat, zum Redner machen... aber in einem IT-Forum...

Früher wurden die Leute raus gemobbt und es war erledigt... heute investiert derjenige 5 € und macht ein eigenes Forum (wenn es das nicht schon gibt) auf "Hier ist alles viel besser, hier dürfen auch Idioten schreiben"... da versammelt sich dann die Inkompetenz aus dem anderen Forum.... wird mit Sicherheit die größere 'Community'... die SUMA denkt super, die sind viel besser, weil größer.

Qualität setzt sich seltener durch, weil die Masse sie unscheinbar macht. 10 grüne Murmeln eine rote kann man sofort erkennen... 10000 grüne und die rote findet man kaum noch.

=> Andererseits ist Google gezwungen jeden scheiß aufzunehmen, weil sie nicht differenzieren können zwischen einer aktuellen wichtigen Neuerung und dem millionsten Durchkauen desselben Themas.

Kann man nur hoffen das ein Weg aus der Miesere gefunden wird

(btw. beim nochmaligen Lesen deines Posts fällt mir auf das du nichts anderes geschrieben hast, als ich gerade. Möchte es aber nicht löschen, deshalb trotzdem "Absenden".)

Beitrag von **Jannick** » 01.09.2010, 13:07

Mit Verlaub ihr beiden, was für ein Blödsinn.

MeNoZony hat geschrieben: Nehmen wir mal o.g. Beispiel mit 900K BLs. Wenn ich diese BLs also fundamental in einer Tiefe von nur 2-3 Ebenen auswerten will und das nur hochrechne auf wirklich interessante Domains dann übersteigt bereits das eigentlich schon Kapazitäten im logischen Sinne.

Das übersteigt vielleicht die Kapazitäten deiner Programmierfähigkeiten. Lies doch bitte was ich geschrieben habe. Die linkanalyse funktioniert nicht so, dass google sieht, "oh ein link" und dann zwei Ebenen tiefer geht. Google analysiert links analog zum Text, wenn sie eine Seite gecrawlt haben, dann analysiert google ja auch, welches Wort in einer Überschrift vorkommt und ebenso gucken sie sich die links an und bewerten die, ohne noch nach sonstwo zu springen. Das kostet vielleicht mehr Ressourcen wie ein einzelnes Wort, aber nur graduell mehr und da es viel weniger links wie Worte gibt ist das locker verschmerzbar.

MeNoZony hat geschrieben: Ich darf ausserdem nicht nur von den Kapazitäten eines Rechnerparks ausgehen, ich muß ja auch von den Verbindungsqualitäten ausgehen.
Schreibe einen Spider und kontrolliere danach, wieviele TimeOuts generiert werden und Du weißt dann, was nach menschlichem Ermessen überhaupt geht und was nicht.

Dir ist schon klar, dass der bot und das Auswerten der Seite komplett getrennte Dinge sind?

MeNoZony hat geschrieben:Die Quote von gesetzten Backlinks, die von Google innerhalb 90 Tagen (eine von mir willkürlich gesetzte Marke) erkannt wird, verschlechtert sich seit einiger Zeit ständig, in letzter Zeit ist diese Quote unerträglich schlecht geworden.

Kann ich nicht nachvollziehen, es gab temporäre Aussetzer, weil die google-Bildersuche umgestellt wurde und die sämtliche Bilder gerendert werden mußten, weshalb sie Rechenkapazität vom bot abgezogen hatten, das hat sich aber wieder normalisiert.

MeNoZony hat geschrieben:Das bestätigt meine o.g. These.

Eine These, die aus eigener empirischer Erfahrung gewonnen wurde mit eben dieser Empirie zu bestätigen ist zumindestens lustig.

MeNoZony hat geschrieben:Es sagt aber auch aus, daß sich der Moloch Google langsam vollgefressen hat und durch den Mechanismus PR peu a peu selbst blockiert und letztendlich lahmlegt.

Mit Verlaub, aber du hast nicht ernsthaft Ahnung davon, wie google funktioniert, wahrscheinlich weißt du noch nichtmal wie der PR berechnet wird, geschweige denn, dass du Kenntnis der verschiedenen Approximationsalgorithmen hättest, dann lass doch solche Aussagen.

MeNoZony hat geschrieben:Allein die schiere Masse an vorhandenem Datenmaterial (ich spreche ausdrücklich nicht nur von Seiten) macht es unmöglich, ein früher einmal funktionierendes Konstrukt PR auch nur annähernd funktionabel zu halten. Deshalb muß man sich von der Idee verabschieden, daß sowas heute noch funktioniert weil es einfach vom Datenbestand nicht mehr funktionieren kann.

s.o. und warum hat google eigentlich gerade caffeine gelauncht mit dem Anspruch noch viel mehr Webseiten als bisher zu indizieren? Nach deiner Verschwörungstheorie müßten sie doch eigentlich still und heimlich sich weiter auf ihren Datenbestand beschränken und nicht ankündigen noch viel mehr zu indizieren!

MeNoZony hat geschrieben:Daher muß man, so lange der PR noch zur Anwendung kommt und/oder bis sich Google von seiner jetztigen Logik der Bewertung verabschiedet, auch in puncto Linksetzung umdenken, weil das reine Setzen von Links deswegen nicht mehr funktionieren wird, weil diese einfach nicht mehr gefunden werden.

Was laberst du? Bzw. wo setzt du deine links? Hier beschäftigen sich viele Leute mit der Suche von Linkquellen und das Problem, dass sie einfach nicht gefunden wurden gab es hier noch nicht. Sonst müßte es ja threads geben wie "heise.de hat mich auf der Startseite verlinkt, aber google findet den link einfach nicht! Wie fies."

MeNoZony hat geschrieben:Ein anderer Denkansatz wäre intelligente Programmierung, die nicht nur einzelne Keys auseinanderhalten kann sondern Sinnzusammenhänge.

LSI sagt dir aber schon was, oder?

Beloe007 hat geschrieben: Allein wenn man sich das Abakus-Forum anschaut, da werden immer und immer wieder dieselben Fragen gestellt und oft kommen unterschiedliche Antworten... je nachdem wer gerade Lust hat zu antworten. -> Wie soll eine SUMA entscheiden welcher Thread nun die beste Antwort liefert? (Außer über Try & Error, Nutzer sucht weiter also Thread scheiße... kann aber auch heißen, will sich weiter ins Thema vertiefen )

Z.B. werden in threads die threads wo eine gute Antwort steht verlinkt, z.B. sieht google durch das Weitersurfen, dass der Thread nicht so gut war,... es gibt da genug Mechanismen um gute Ergebnisse zu bringen und das tut google auch. Vielleicht solltet ihr eure eigenen Erfahrungen nicht als allgemeingültig setzen.

Beitrag von **Beloe007** » 01.09.2010, 13:35

Wer redet hier von Allgemeingültig... aber es ist nur logisch das jedes System das Bekannt ist und ausgenutzt werden kann irgendwann zusammenbricht, das ist bei Links (irgendwann) eben der Fall.

Und es sind nicht nur meine Erfahrungen, in der gesamten wissenschaftlichen Welt wird diese Erfahrung gemacht... nicht umsonst werden Quellen aus dem Netz immer verpönter und unter Anderem eigene Netzwerke bevorzugt.

Hier werden Meinungen als Tatsachen dargestellt und Tatsachen als Meinungen.

Und MeNoZony hat mitnichten davon gesprochen das es nicht geht... sondern das es mittlerweile in der Masse absurd geworden ist, zum Einen kann man immer weniger Links trauen (= Nofollow eingeführt), was beweist das Google Probleme hatte, ansonsten hätten sie es nicht eingeführt und zum Anderen Content der in millionenfachen Fassungen existiert um Besucher zu generieren, das war nicht der Sinn "Internet" -> da muss Google sich anpassen, entweder den Index verkleinern und den Schrott rauswerfen, was nicht geht, weil Google nicht zwischen Schrott und Qualität unterscheiden kann oder ein neues System (caffeine), das nach meiner Einschätzung noch nicht fertig ist.
Ich vermute etwas anderes, wird bald eine höhere Bedeutung bekommen

Jedenfalls muss sich die Qualität der Suchergebnisse verbessern, weil mit den Jahren immer öfter, wenn man nach etwas unkonkretem (also nicht Handwerker Buxtehude) sucht, schlechte Ergebnisse für den Suchenden vorne sind und das wegen irgendwelcher Linkvorteile.

Beitrag von **MeNoZony** » 01.09.2010, 15:57

Jannick hat geschrieben: Dir ist schon klar, dass der bot und das Auswerten der Seite komplett getrennte Dinge sind?

Ich antworte nur darauf weil aus diesem Satz schon deutlich wird, was für einen halbgar verquasten Quark Du da verzapfst und zwar egal ob aus Unwissen oder weil Du nicht gewillt bis, zusammenhängende Texte so zu lesen, wie sich das gehört.
Also, Preisfrage:
wie will ich eine Seite auswerten, die ich aufgrund gar nicht vorhanden sein könnender(!) Ressourcen, also weil es
a) zu wenig Ressourcen im Rechenzentrum oder
b) zu wenig Ressourcen im Leitungsbereich (aka ich erreiche die entsprechende Seite wg. schlechter Konnektivität im Netz erst gar nicht in vernünftiger Zeit- TimeOut(!)) gibt,
wie will ich diese Seite und die damit verbunden Links überhaupt analysieren?
Und daraus resultierend die 2. Preisfrage: wieso sind Bot und die Auswertungssoftware "zwei komplett getrennte Dinge" wenn das eine "Ding", die Auswertungssoftware, das andere "Ding", den Bot, unverzichtbar benötigt?
Na?
Naaaa?
Na also.
Und, Kapazitäten: Dein Lehrer hat sich in der Schule bestimmt redlich Mühe gemacht, Deine Mathematikfähigkeiten auf ein zumindest durchschnittliches Niveau zu heben.
Also:
Seite #1 hat 900.000 Backlinks.
Wir analysieren die 900.000 Backlinks, indem wir die korrespondierenden Seiten besuchen, jede einzeln. Jeder dieser Seiten hat durchschnittlich 15.000 Backlinks, die betrachtet werden sollen, weil ja die Qualität der Links der 2. Seite zur 1. Seite bewertet werden muß.
Seite 1 ist, zugegeben, ein Mörderteil.
Gehen wir also zurückhaltend von einer Durchschschnittsrate von 2K Links pro Seite im Netz aus. Durchschnitt, OK?
Gehen wir weiterhin von momentan konservativ von nur 1 Milliarde Dokumenten im Netz aus.
Gehen wir weiterhin davon aus, daß die durchschnittliche Zeit bis zum vollständigen Einlesen des Dokumentes bei 15 Sekunden liegt.
Und dann, wenn Du die Millionen und Abermillionen Stunden rausgeknobelt hast, dann fügst Du als weiteren demoralisierenden Faktor das Intervall ein, in dem die Seiten immer und immer wieder besucht werden sollen. (Den kannst Du übrigens z.B. daran erkennen, wie viele Deiner Seiten nach wie langer Zeit noch im Netz sind, obwohl sie gelöscht wurden und damit irrelevant geworden sind)
Und als weiteren Faktor die neu hinzugekommenen Seiten.
Und das sind ja nur die Kapazitäten für den Bot, da sind Auswertung, Speicherung, Sicherung und Auslieferung an den User noch gar nicht drin.
Viel Spaß!

Beitrag von **t-rex** » 01.09.2010, 16:36

Hi,

bevor das hier komplett ins undiskutierbare abrutscht, möchte ich auch noch was einwerfen.

@MeNoZony: Entweder Du drückst dich sehr missverständlich aus oder Du bist einfach auf dem Holzweg.

Egal wieviel Links auf einer Seite zu finden sind, die Seite muss nur einmal abgerufen werden. Und auch jeder Link muss nur einmal vom Crawler besucht werden um die darauf befindlichen Links zu finden. Und so weiter und so fort.

Sollte eine Seite mal nicht erreichbar sein, dann gibt es das sogenannte Errorhandling. Bei einem 30x wird das in der DB vermerkt und die neue Location wird in die abzuarbeitende Queue geschrieben. Bei einem 40x oder 50x wird dies mit Timestamp in der DB vermerkt und der Crawler macht halt beim nächsten weiter. Reagiert die Seite nicht mit einem Statuscode und liefert kein Ergebnis zurück, dann wird per Timeout bestimmt, wie lange der Crawler sich daran festbeissen soll bevor er loslässt und zur nächsten Seite geht. Das festbeissen kostet keine Extra-Resourcen sondern lediglich das bisschen Speicher, den der Crawler sowieso belegt. Die CPU steht allen anderen 100 oder 1000 oder 10000 Crawlern auf dem gleichen Rechner weiter zur Verfügung. Also nicht erreichbare Seiten interessieren und belasten den/die Crawler in keinster Weise

Das Crawlen und speichern einer Seite dauert im Normalfall nicht einmal 1 Sekunde. 1 Crawler kann demnach 86400 Seiten/Urls am Tag abarbeiten. Auf einem Rechner können 100, 1000, 10000 oder mehr Crawler gleichzeitig arbeiten. Das wären dann bis zu 864.000.000 Dokumente am Tag auf einem Server. In ein Rack passen 46 Server. und so käme ich auf 39.744.000.000 Dokumente die an einem Tag durchsucht werden können.

Alle Links die gefunden wurden, kommen in eine Tabelle von wo aus versch. Bewertungsprozesse sich die Links nach und nach rausziehen und eben nach den ihnen gegebenen Kriterien bewerten. Dieses Bewerten ist dann auch gleichzeitig die Grundlage für die Bewertung der im gleichen Umfeld gefundenen Links. Das bewerten findet kontinuierlich statt es ist losgelöst vom Crawlingprozess. Und wenn man von einem Backlinkupdate spricht, dann werden die bis dahin berechneten und aktualisierten Bewertungen der Links veröffentlicht. D.h. Jetzt werden sie im Ranking berücksichtigt.

Da mir das jetzt ein bisschen zu lang wird, hier noch ein Link zu

Gehen wir weiterhin von momentan konservativ von nur 1 Milliarde Dokumenten im Netz aus.

Die 1 Milliarde war schon 2000 unter Dach und Fach. Seit 2008 sind es über 1 Billion.

Kannst du hier nachlesen https://googleblog.blogspot.com/2008/07 ... s-big.html

Sonnige Grüsse
HaPe

Beitrag von **Jannick** » 01.09.2010, 16:59

MeNoZony hat geschrieben:
Jannick hat geschrieben: Dir ist schon klar, dass der bot und das Auswerten der Seite komplett getrennte Dinge sind?
Ich antworte nur darauf weil aus diesem Satz schon deutlich wird, was für einen halbgar verquasten Quark Du da verzapfst und zwar egal ob aus Unwissen oder weil Du nicht gewillt bis, zusammenhängende Texte so zu lesen, wie sich das gehört.
Also, Preisfrage:
wie will ich eine Seite auswerten, die ich aufgrund gar nicht vorhanden sein könnender(!) Ressourcen, also weil es
a) zu wenig Ressourcen im Rechenzentrum oder
b) zu wenig Ressourcen im Leitungsbereich (aka ich erreiche die entsprechende Seite wg. schlechter Konnektivität im Netz erst gar nicht in vernünftiger Zeit- TimeOut(!)) gibt,
wie will ich diese Seite und die damit verbunden Links überhaupt analysieren?

Vielleicht möchte ich nur die Seiten analysieren, die mir der bot bereitstellen kann.

MeNoZony hat geschrieben: Und daraus resultierend die 2. Preisfrage: wieso sind Bot und die Auswertungssoftware "zwei komplett getrennte Dinge" wenn das eine "Ding", die Auswertungssoftware, das andere "Ding", den Bot, unverzichtbar benötigt?
Na?
Naaaa?
Na also.

Hast du schon Mal was von Gewaltenteilung gehört? Die Exekutive ist auch vo der Judikative komplett getrennt, obwohl die Judikative die Exekutive benötigt. Oder wie ist das mit den Blumen und Bienchen? Letztere benötigen zum Leben auch erstere, trotzdem sind sie komplett getrennt. Da würden mir jetzt Millionen Beispiele einfallen, ich habe nur nicht die Zeit, sie aufzuschreiben.
Nochmal zum Verständnis: Es gibt eine Software, bot genannt, die ist parallelisiert. D.h. greift gleichzeitig auf Millionen verschiedener Webseiten zu. Jede Website, die sie crawlt gibt sie weiter an eine ganz andere Software auf ganz anderen Maschinen, wahrscheinlich auch auf ganz anderen Rechnerparks und diese software, die Auswertungssoftware analysiert dieses Dokument, d.h. sie guckt, welche Worte drin vorkommen, was in den Überschriften steht und guckt sich die links in diesem Dokument an. Die daraus extrahierten Daten fügt sie dann in die Datenstrukturen zur Suche und zur Bewertung der Seiten ein. Sie ist ebenfalls parallelisiert, analysiert also Millionen Dokumente gleichzeitig.

MeNoZony hat geschrieben:Und, Kapazitäten: Dein Lehrer hat sich in der Schule bestimmt redlich Mühe gemacht, Deine Mathematikfähigkeiten auf ein zumindest durchschnittliches Niveau zu heben.

Ja, da hat er sich redlich bemüht, Mathe habe ich aber erst richtig im Informatikstudium gelernt.

MeNoZony hat geschrieben:Also:
Seite #1 hat 900.000 Backlinks.
Wir analysieren die 900.000 Backlinks, indem wir die korrespondierenden Seiten besuchen, jede einzeln. Jeder dieser Seiten hat durchschnittlich 15.000 Backlinks, die betrachtet werden sollen, weil ja die Qualität der Links der 2. Seite zur 1. Seite bewertet werden muß.
Seite 1 ist, zugegeben, ein Mörderteil.
Gehen wir also zurückhaltend von einer Durchschschnittsrate von 2K Links pro Seite im Netz aus. Durchschnitt, OK?
Gehen wir weiterhin von momentan konservativ von nur 1 Milliarde Dokumenten im Netz aus.
Gehen wir weiterhin davon aus, daß die durchschnittliche Zeit bis zum vollständigen Einlesen des Dokumentes bei 15 Sekunden liegt.

Du machst einen Denkfehler, weil du, mit Verlaub, keinen blassen Schimmer von Programmierung hast. Nochmal, damit du es auch verstehst: google denkt sich nicht, prüfen wir doch heute mal spiegel.de und gehen die links bis zu einer Tiefe von 10 Seiten zurück. Auf so eine Idee würde niemand kommen. Google prüft die links, wenn sie auf den indizierten Seiten gefunden werden. Dann fügt er den linktext als Wert zu der linkbekommenden Seite hinzu, erhöht deren link-wert, aktualisiert seine PR-Matrix...
Im Übrigen misst man nicht Rechenkapazität in Sekunden. Google hat die größten Rechenleistung dieses Planeten zur Verfügung, da läuft alles, aber wirklich alles parallel. Das geht nicht so, dass sie jetzt mal die 100000. Seite des Abakusforum analysieren und danach, wenn sie 15 Sekunden gewartet haben, dann die 100001.

Beitrag von **MeNoZony** » 01.09.2010, 20:38

Jannick hat geschrieben: Du machst einen Denkfehler, weil du, mit Verlaub, keinen blassen Schimmer von Programmierung hast.

Du hast ja Recht.
Mea, culpa, mea maxima culpa.
Ich dachte, ich wäre seit 30 Jahren Programmierer und verdiene damit mein Geld und muß nun Durch Deine gütige Wegweisung merken, daß ich in Wirklichkeit 30 Jahre im Koma gelegen habe und mich die AOK finanziert hat. Welch' grausamer Wachtraum.
Und die ganzen Spider, die ich in den letzten 15 Jahren programmiert & auf das Netz losgelassen habe? Dank DIR weiß ich nun: alles nur Fieberträume.
Lasse mich Deinen Saum küssen, Oheim, für diese Gnade der Erkenntnis.

Jannick hat geschrieben: Im Übrigen misst man nicht Rechenkapazität in Sekunden.

Weiß ich. Manchmal drücke ich mich halt laienhaft aus weiß wir in einem Laienforum sind.
Nein, halt, Du weißt, ich doof. Vergesse so schnell.

Jannick hat geschrieben: Google hat die größten Rechenleistung dieses Planeten zur Verfügung, da läuft alles, aber wirklich alles parallel.

Du kannst von mir aus rausjuxen, was Du lustig bist, entscheidend ist, ob Du auch ankommst.
Und gerade durch immer mehr datenintensive Anwendungen, von denen Du vielleicht ansatzweise schon mal gehört hast, wird das Netz über die Gebühr belastet, dazu kommen irgendwelche dämlichen Fischer, die mal eben ein Unterseekabel kappen und andere Kleinigkeiten.
Ich sag's nochmal: ein Rechnerpark ist letztendlich nur so gut wie die Adresse die er erreichen will, also volkstümlich ausgedrückt: das schwächste Glied in der Kette.
Und, Kausalzusammenhänge: keine Daten=keine Ergebnisse, wenig Daten=wenig Ergebnisse, Schrottdaten=Schrottergebnisse.
Wenn man immer vom Optimalzustand ausgehen würde, wäre alles prima.
Aber, wie gesagt, ich bin nur ein kleines Licht gegen Deine geballte Weisheit, Erfahrung & Intelligenz und begebe mich wieder für die nächsten 30 Jahre in's bezahlte AOK-Koma bis mich Deine Gnade wieder zu Deinen Füßen ruhen und Deine Weisheiten aufsaugen läßt.
Ick bewundere Dir, ehrlisch.

Beitrag von **MeNoZony** » 01.09.2010, 20:45

t-rex hat geschrieben: Das Crawlen und speichern einer Seite dauert im Normalfall nicht einmal 1 Sekunde.

Nein, im Optimalfall.
Das ist ein erheblicher Unterschied. Google crawlt asiatische Server nicht aus Asien und deutsche Server nicht aus Deutschland usw.

t-rex hat geschrieben: 1 Crawler kann demnach 86400 Seiten/Urls am Tag abarbeiten. Auf einem Rechner können 100, 1000, 10000 oder mehr Crawler gleichzeitig arbeiten. Das wären dann bis zu 864.000.000 Dokumente am Tag auf einem Server. In ein Rack passen 46 Server. und so käme ich auf 39.744.000.000 Dokumente die an einem Tag durchsucht werden können.

Ja, kann er.
Ein Ferrari kann theoretisch 300km/h fahren, nur wird ihm das auf der B1 von Essen nach Dortmund nachmittags um vier nur in den allerseltensten Fällen gelingen.
Wenn Sonntagsfahrverbot ist o.ä.

t-rex hat geschrieben: Alle Links die gefunden wurden, kommen in eine Tabelle von wo aus versch. Bewertungsprozesse

Diese Technik ist mir geläufig, stand aber prinzipiell gar nicht zur Diskussion.

t-rex hat geschrieben: Die 1 Milliarde war schon 2000 unter Dach und Fach. Seit 2008 sind es über 1 Billion.

Jou.
War mir auch bekannt.
Was letztendlich den Anspruch einer universellen Suchmaschine noch mehr ad absurdum führt und noch mehr Leuten die Hoffnung stiehlt, irgendwann in diesem Leben nach oben zu kommen...

Beitrag von **profo** » 01.09.2010, 21:08

MeNoZony hat geschrieben:Ich dachte, ich wäre seit 30 Jahren Programmierer ...

Tipp: wenn man sich vergaloppiert hat: einfach eingestehen oder Klappe halten.

Ansonsten, wen's interessiert, wie Google funktioniert beschreibt Google einigermaßen einfach erklärt sogar selbst. Ich glaub, das ist auch für Nichttechniker gut lesbar: How Google Works.

Beitrag von **Netpromote24** » 01.09.2010, 21:20

profo hat geschrieben:
MeNoZony hat geschrieben:Ich dachte, ich wäre seit 30 Jahren Programmierer ...
Tipp: wenn man sich vergaloppiert hat: einfach eingestehen oder Klappe halten.

Ansonsten, wen's interessiert, wie Google funktioniert beschreibt Google einigermaßen einfach erklärt sogar selbst. Ich glaub, das ist auch für Nichttechniker gut lesbar: How Google Works.

Danke wußt ich noch garnicht das Google so eine Beschreibung über die eigenen Methoden erstellt hat. Wie der Googlebot funktioniert wußte ich ja schon vorher aber den genauen Ablaufen von der Query bis zum Suchresultat...

Aber um mal wieder zur Topic zu kommen...

Ich habe von Grund auf gelernt und mir wurde es immer wieder gesagt das zu schneller Linkaufbau nicht gut bei Google wertet. Aber selber Erfahrungen damit habe ich noch nicht viel gemacht. Bzw. ich wurde noch nicht abgestraft oder ähnliches. Jedoch sollte ein gewisses zeitversetztes Muster schon da sein. Besonders wenn man sich als Anfänger z.B. Tools dazu holt.

Beitrag von **profo** » 01.09.2010, 21:23

@np24, willkommen erstmal. Wenn Du aber Deine Sig nicht 1-2-3 änderst, wird das schätze ich Dein erster und Dein letzter Post gewesen sein

Beitrag von **Wolke23** » 01.09.2010, 22:57

Ahh, macht endlich mal wieder Spaß, Abakus zu lesen dank diesem Schrätt.

@MeNoZony: Keine sachlich fundierten Gegenargumente mehr? Nur Bundesstraßen statt Datenhighways? Flamen statt argumentieren? Schade...