Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Meisterhafte Spider-Aufgabenteilung

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
profo
PostRank 9
PostRank 9
Beiträge: 1703
Registriert: 18.01.2007, 18:51

Beitrag von profo » 15.07.2011, 22:19

Seit ein paar Wochen hab ich das Vergnügen, Google auf einer Site mit etwa 400K Crawler-Queries pro Tag (etwa 5 Queries / Sekunde) zu beobachten. Google nutzt dafür etwa 69 IPs mit einer merkbaren Menge an Abfragen ein, 45 davon tragen die Hauptlast mit jeweils mehr als 5000 Queries/Tag.

A - streng kontrollierte Lastverteilung: Spannend finde ich jetzt, wie Google die Last verteilt. Logischerweise bekommt offenbar jeder Crawler seinen Satz an URLs zugeordnet. Es ist jetzt aber nicht so, dass der eine Crawler Adressen ab A und der andere Adressen ab M bearbeitet, sondern sie teilen sich in vielen Fällen die A's, gehen dann zu B über usw. Die Logs sehen dementsprechend in weiten Teilen so aus, als ob alphabetisch gecrawlt wird. Also, egal welche IP gerade zugreift, sie greift tendenziell auf eine URL zu, die alphabetisch nach der gerade zuvor gecrawlten URL liegt.

B - invariante URL-Länge: Interessant finde ich, dass dabei heute die Länge der URLs scheinbar keine große Rolle spielt. Früher hatte ich oft Log-Einträge, bei denen die Crawling-Reihenfolge klar von der Länge der URLs abhängig war (kurze URLs zuerst, dann immer die ein Zeichen längeren URLs). Heute ist es ganz klar alphabetisch. Das heißt jetzt aber nicht, dass grundsätzlich A vor B kommt, sondern nur, dass die aktuell gecrawlte Untermenge der URLs immer alphabetisch ist.

Das ganze ist zugegebenermaßen ein bisschen nerdig... Ich hoffe, der ein oder andere findet das interessant.

Schönes WE euch!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 16.07.2011, 04:22

profo hat geschrieben:Seit ein paar Wochen hab ich das Vergnügen, Google auf einer Site mit etwa 400K Crawler-Queries pro Tag (etwa 5 Queries / Sekunde) zu beobachten.
Mein Beileid! Ich dachte, meine durchschnittlichen 50K auf einer Site wären schon viel. Hast Du den Wert aus den Webmastertools oder aus dem Log?
A - streng kontrollierte Lastverteilung: Spannend finde ich jetzt, wie Google die Last verteilt. Logischerweise bekommt offenbar jeder Crawler seinen Satz an URLs zugeordnet. Es ist jetzt aber nicht so, dass der eine Crawler Adressen ab A und der andere Adressen ab M bearbeitet, sondern sie teilen sich in vielen Fällen die A's, gehen dann zu B über usw.
Das könnte an Caffeine liegen. Die neue Infrastruktur soll ja für schnelleres Erfassen neuer Inhalte sorgen. Wenn die Bots zu viele URLs bekommen, ist die Gefahr groß, dass sie an langsamen (bzw. defekten) Sites hängen bleiben. Durch ein detailiertes, zentral gesteuertes Scheduling kann Google seine Ressourcen effektiver einsetzen.
Heute ist es ganz klar alphabetisch. Das heißt jetzt aber nicht, dass grundsätzlich A vor B kommt, sondern nur, dass die aktuell gecrawlte Untermenge der URLs immer alphabetisch ist.
Manchmal sind solche Änderungen rein technischer Natur: Es wurde eine neue Infrastruktur eingeführt, damit wurde ein neues Entwicklerteam beauftragt und hat die Dinge einfach neu Entwickelt und sich selbstverständlich nicht bemüht, althergebrachte Verfahren beizubehalten.

Trotzdem wird sich dieses Entwicklerteam etwas dabei gedacht haben, es so gemacht zu haben. Man könnte folgendes Mutmaßen:
Die vorherige Reihenfolge (Sortierung nach Länge) hat Index-Seiten (Startseiten, Übersichten von Rubriken/Kategorien) und statische Seiten (Impressum, Kontakt, Datenschutz, Partner, etc.) bevorzugt. Die eigentlich wichtigen (variablen) Inhalte sind dynamische Unterseiten, Artikel, Diskussionen, und die liegen tiefer, haben längere URLs. Wenn man nun alphabetisch sortiert, bedeutet das ja nichts weiter als, dass man die Websites Zweig für Zweig durchforstet, also allen Seiten die gleiche Priorität beimisst.

Gleichfalls schönes WE!

800XE
PostRank 10
PostRank 10
Beiträge: 5223
Registriert: 02.12.2004, 03:03

Beitrag von 800XE » 16.07.2011, 07:05

profo hat geschrieben:Das ganze ist zugegebenermaßen ein bisschen nerdig...
Ich hoffe, der ein oder andere findet das interessant.
BAZiNGA


oder "Faszinirend" wie Spock sagen würde

800XE
PostRank 10
PostRank 10
Beiträge: 5223
Registriert: 02.12.2004, 03:03

Beitrag von 800XE » 16.07.2011, 07:09

SloMo hat geschrieben:Die eigentlich wichtigen (variablen) Inhalte sind dynamische Unterseiten,

Wenn man nun alphabetisch sortiert,
bedeutet das ja
das bald die Freds kommen


ist es von Vorteil wenn ich meine Wichtigen Sachen unter

Domain.TLD/A/

ablege?


(steinigt mich wenn ihr nachweisen könnt das ich schuld bin wenn wirklich so ein Fred kommt)

tuennes
PostRank 5
PostRank 5
Beiträge: 266
Registriert: 09.08.2009, 13:03
Wohnort: Köln

Beitrag von tuennes » 16.07.2011, 22:42

800XE hat geschrieben:Domain.TLD/A/
Wenn sich das rumspricht, dann sehen URLs demnächst so aus wie Telefonbucheinträge.
domain.tld/A/A/A/A/A/AbflussreinigerGmbH.html

Antworten