ABAKUS

Verfasst: **15.07.2011, 22:19**

Seit ein paar Wochen hab ich das Vergnügen, Google auf einer Site mit etwa 400K Crawler-Queries pro Tag (etwa 5 Queries / Sekunde) zu beobachten. Google nutzt dafür etwa 69 IPs mit einer merkbaren Menge an Abfragen ein, 45 davon tragen die Hauptlast mit jeweils mehr als 5000 Queries/Tag.

A - streng kontrollierte Lastverteilung: Spannend finde ich jetzt, wie Google die Last verteilt. Logischerweise bekommt offenbar jeder Crawler seinen Satz an URLs zugeordnet. Es ist jetzt aber nicht so, dass der eine Crawler Adressen ab A und der andere Adressen ab M bearbeitet, sondern sie teilen sich in vielen Fällen die A's, gehen dann zu B über usw. Die Logs sehen dementsprechend in weiten Teilen so aus, als ob alphabetisch gecrawlt wird. Also, egal welche IP gerade zugreift, sie greift tendenziell auf eine URL zu, die alphabetisch nach der gerade zuvor gecrawlten URL liegt.

B - invariante URL-Länge: Interessant finde ich, dass dabei heute die Länge der URLs scheinbar keine große Rolle spielt. Früher hatte ich oft Log-Einträge, bei denen die Crawling-Reihenfolge klar von der Länge der URLs abhängig war (kurze URLs zuerst, dann immer die ein Zeichen längeren URLs). Heute ist es ganz klar alphabetisch. Das heißt jetzt aber nicht, dass grundsätzlich A vor B kommt, sondern nur, dass die aktuell gecrawlte Untermenge der URLs immer alphabetisch ist.

Das ganze ist zugegebenermaßen ein bisschen nerdig... Ich hoffe, der ein oder andere findet das interessant.

Schönes WE euch!

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Verfasst: **16.07.2011, 04:22**

profo hat geschrieben:Seit ein paar Wochen hab ich das Vergnügen, Google auf einer Site mit etwa 400K Crawler-Queries pro Tag (etwa 5 Queries / Sekunde) zu beobachten.

Mein Beileid! Ich dachte, meine durchschnittlichen 50K auf einer Site wären schon viel. Hast Du den Wert aus den Webmastertools oder aus dem Log?

A - streng kontrollierte Lastverteilung: Spannend finde ich jetzt, wie Google die Last verteilt. Logischerweise bekommt offenbar jeder Crawler seinen Satz an URLs zugeordnet. Es ist jetzt aber nicht so, dass der eine Crawler Adressen ab A und der andere Adressen ab M bearbeitet, sondern sie teilen sich in vielen Fällen die A's, gehen dann zu B über usw.

Das könnte an Caffeine liegen. Die neue Infrastruktur soll ja für schnelleres Erfassen neuer Inhalte sorgen. Wenn die Bots zu viele URLs bekommen, ist die Gefahr groß, dass sie an langsamen (bzw. defekten) Sites hängen bleiben. Durch ein detailiertes, zentral gesteuertes Scheduling kann Google seine Ressourcen effektiver einsetzen.

Heute ist es ganz klar alphabetisch. Das heißt jetzt aber nicht, dass grundsätzlich A vor B kommt, sondern nur, dass die aktuell gecrawlte Untermenge der URLs immer alphabetisch ist.

Manchmal sind solche Änderungen rein technischer Natur: Es wurde eine neue Infrastruktur eingeführt, damit wurde ein neues Entwicklerteam beauftragt und hat die Dinge einfach neu Entwickelt und sich selbstverständlich nicht bemüht, althergebrachte Verfahren beizubehalten.

Trotzdem wird sich dieses Entwicklerteam etwas dabei gedacht haben, es so gemacht zu haben. Man könnte folgendes Mutmaßen:
Die vorherige Reihenfolge (Sortierung nach Länge) hat Index-Seiten (Startseiten, Übersichten von Rubriken/Kategorien) und statische Seiten (Impressum, Kontakt, Datenschutz, Partner, etc.) bevorzugt. Die eigentlich wichtigen (variablen) Inhalte sind dynamische Unterseiten, Artikel, Diskussionen, und die liegen tiefer, haben längere URLs. Wenn man nun alphabetisch sortiert, bedeutet das ja nichts weiter als, dass man die Websites Zweig für Zweig durchforstet, also allen Seiten die gleiche Priorität beimisst.

Gleichfalls schönes WE!

Verfasst: **16.07.2011, 07:05**

profo hat geschrieben:Das ganze ist zugegebenermaßen ein bisschen nerdig...
Ich hoffe, der ein oder andere findet das interessant.

BAZiNGA

oder "Faszinirend" wie Spock sagen würde

Verfasst: **16.07.2011, 07:09**

SloMo hat geschrieben:Die eigentlich wichtigen (variablen) Inhalte sind dynamische Unterseiten,

Wenn man nun alphabetisch sortiert,
bedeutet das ja

das bald die Freds kommen

ist es von Vorteil wenn ich meine Wichtigen Sachen unter

Domain.TLD/A/

ablege?

(steinigt mich wenn ihr nachweisen könnt das ich schuld bin wenn wirklich so ein Fred kommt)

Verfasst: **16.07.2011, 22:42**

800XE hat geschrieben:Domain.TLD/A/

Wenn sich das rumspricht, dann sehen URLs demnächst so aus wie Telefonbucheinträge.
domain.tld/A/A/A/A/A/AbflussreinigerGmbH.html

ABAKUS

Meisterhafte Spider-Aufgabenteilung

Meisterhafte Spider-Aufgabenteilung

Re: Meisterhafte Spider-Aufgabenteilung

Re: Meisterhafte Spider-Aufgabenteilung

Re: Meisterhafte Spider-Aufgabenteilung

Re: Meisterhafte Spider-Aufgabenteilung