Seite 1 von 1

Google Spider und lange URLs

Verfasst: 30.06.2006, 10:01
von scnmitz73
Zunächst einmal Hallo Zusammen (bin neu hier) 8) ,

ich habe eine Frage zur Arbeitsweise des Google Spiders:
wir haben gerade eine umfassende Website online gestellt (~250.000 Einzelseiten), die zur Zeit fleißig von Google gespidert wird.
Nun haben wir festgestellt, dass Google mittlerweile zwar etwa 50.000 Seiten indiziert hat, Google aber hierbei offensichtlich kurze URLs bevorzugt oder der Spider gar Probleme mit langen URLs hat??

Auf unseren Übersichtsseiten (hier wird auf die Unterseiten verlinkt - das müsste der Weg sein den Google verfolgt), stelle ich fest, dass sämtliche kurze URLs in Google indiziert wurden, alle längeren URLs jedoch (noch) nicht. Entweder der Spider bevorzugt also kurze Links, oder es gibt ein Problem mit langen Links. Vielleicht stellen aber auch unsere mod_rewriteten URLs (Sonderzeichen und Umlaute URL encodet) ein Problam dar?

Hier zwei Beispiele:
kurzer Link: https://www.google.de/search?sourceid=n ... %2Ehtml%23

langer Link: https://www.google.de/search?hl=de&rls= ... l%23&meta=

Die Frage also, ob Google ein Problem mit der Länge oder dem Aufbau unserer URLs hat oder wir einfach nur warten und dem Spider Zeit geben müssen.

In diesem Zusammenhang stellt sich auch die Frage, ob es sinnvoll wäre Google Sitemaps einzusetzen? Da wir allerdings einen erheblichen Aufwand hätten, eine Liste aller mod_rewriteten URLs zu generieren, müssen wir Nutzen und Aufwand hierbei sorgfältig abwägen. Wenn wir davon ausgehen können, dass Google unsere Seiten früher oder später selbständig indiziert, möchten wir diesen Aufwand vermeiden. Bis dato hat Google jedoch nur die obersten 2-3 Ebenen angekratzt.

Vielen Dank für eure Erfahrungen!!

Marc

Verfasst:
von

Verfasst: 30.06.2006, 12:45
von thetrasher
scnmitz73 hat geschrieben:Die Frage also, ob Google ein Problem mit der Länge oder dem Aufbau unserer URLs hat oder wir einfach nur warten und dem Spider Zeit geben müssen.
Weder das noch das noch das.

Auch die Seiten mit langen URLs sind drin:
https://www.google.de/search?q=site:htt ... N&filter=0
Selbst im Google-Cache ist die von dir genannte Seite mit der langen URL: https://72.14.221.104/search?q=cache:qt ... clnk&cd=14

Verfasst: 30.06.2006, 12:51
von scnmitz73
d.h. der Spider braucht nur Zeit und verfolgt die Links völlig willkürlich?

Einige (und zwar wie es scheint ausschließlich längere URLs) sind bislang nicht indiziert:
https://www.google.de/search?sourceid=n ... %2Ehtml%23

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 30.06.2006, 13:05
von thetrasher
Doch, es ist alles da:
https://www.google.de/search?hl=de&rls= ... uche&meta=

Wer richtig suchet, der findet. Die Suchbox scheitert bei der ersten ISO-8859-1-Kodierung.


Willkür existiert nicht im Wortschatz eines Programmierers.

Verfasst: 30.06.2006, 13:15
von scnmitz73
OK, gute Nachricht! Hat Google ein generelles Problem mit der ISO-8859-1-Kodierung? Wie erzeugst Du den richtigen Suchstring?

Verfasst: 30.06.2006, 13:34
von thetrasher
In die Suchbox dürfen keine kodierten URLs geschrieben werden (bzw. Google findet dann nichts).
Teste selbst und tipp in den Suchschlitz ein:
define:Übertragung
define:%DCbertragung
define:%C3%C9bertragung

Deine Sucheingaben mit URL-Kodierung werden von Google nochmals kodiert und führen somit zu keinem Ergebnis.

Soweit zum Google-1x1. Das gehört nicht in diesen Forenbereich! Im Google-Bereich findest du mehr Hilfe.