Googlebot spidert/indiziert invalide URLs (siehe Index)?

Beitrag von **Airport1** » 06.05.2005, 11:42

Die Gretchenfrage:
Wieso spidert der Googlebot ganz offensichtlich invalide URLs bzw. nimmt sie in den Index auf?

Im Index findet man u.a. URLs in der Form wie:
https://www.domain__auto/
https://domain.c/
...

Wuerde man den ganzen offensichtlich invaliden Muell vornherein entfernen, haette man zudem einen schlankeren Index.. gaebe maybe sogar einen kleinen Performance-Schub beim Suchen.

Schlampen hier die Googlebot Entwickler? Schlafen die vielleicht oder wird der seit 199x nicht weiterentwickelt?

Nach aussen hin verkauft sich das jedenfalls nicht gut!
Mein Respekt vor Google ist dadurch jedenfalls gesunken

Google muellt sich ja so selber den Index zu...?

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **marc75** » 06.05.2005, 12:42

was muss man denn eingeben damit man diese urls in den serps sieht?

Beitrag von **Airport1** » 06.05.2005, 12:54

Moyn Namensvetter

Die Ergebnisse hab ich gestern gefunden, hab sie aber leider nicht gespeichert.

Es scheint geradezu so, als wuerde nicht mal ein "light" Syntax Check auf die URLs gemacht bevor sie in den Index kommen, oder aber er ist "zu light".

Fuer den Google Suma Index sind folgende Domains "valid":
https://firma/ (keine TLD)
https://firma.x/ (TLD mit 1 Buchstabe!)
https://firma__auto/ (keine TLD)
https://www.firma/ (keine TLD)

Sorry, aber wenn das ein Benutzer der SUMA sieht:
- der technisches Verstaendnis hat: => Kopfschuetteln
- der kein technisches Verstaendnis hat: => klickt drauf, ERROR

von **Anzeige von ABAKUS** »

Beitrag von **Airport1** » 06.05.2005, 13:03

Also entweder hab ich was verpasst oder es gibt neuerdings eine TLD namens .auto

https://www.google.de/search?hl=de&neww ... uche&meta=

Beitrag von **sean** » 06.05.2005, 13:19

das geht mit "a" https://www.google.de/search?hl=de&neww ... uche&meta=
"b"
https://www.google.de/search?hl=de&neww ... uche&meta=
und so weiter...

geht auch mit "hund"
https://www.google.de/search?hl=de&neww ... uche&meta=

"katze"
https://www.google.de/search?hl=de&neww ... uche&meta=

und "maus"
https://www.google.de/search?hl=de&neww ... uche&meta=

und "bug"
https://www.google.de/search?num=100&hl ... uche&meta=

und auch "google"
https://www.google.de/search?num=100&hl ... uche&meta=

und "seo"
https://www.google.de/search?num=100&hl ... uche&meta=

sean

Beitrag von **sean** » 06.05.2005, 13:24

Google scheider da wohl die Domains falsch ab.

Bei seo steht das in der serp:
www.web-site-design.seo/

und sollte wohl das hier heissen:

https://www.web-site-design.seo-web-design.co.uk

ab dem Bindestrich geht etwas schief. Ob die aber auch in den "normalen" Serps auftauchen weiß ich nicht.

Gruß

sean

Beitrag von **bull** » 06.05.2005, 13:24

Das ist ja nichts neues, ich habe, wie bereits berichtet, vor einigen Monaten bei einem Link <a href="dxjpidz,ctrzh.html>Text</a> , wie links ersichtlich, das " vergessen vor dem Ankertext, und prompt hat der Bot den Rest der Datei als URL interpretiert, versucht diese URL zu spidern und diese URL, trotz des 404, in den Index aufgenommen. Es ist vollkommen irrelevant, ob Dateien oder Domains existieren, solange ein Link darauf zeigt, taucht das auch in den SERPs auf. Daher auch die 8 Milliarden "indizierten" Seiten...

Beitrag von **Airport1** » 06.05.2005, 13:27

Also sind von den 8 Mrd. indizierten Webseiten x,y Mrd Phantom-URLs ?

Dieser "Bug" wird wohl auch erst beseitigt wenn ein jeder solche Phantom-URLs anlinkt, und damit zur Bemuellung des Index beitraegt...

Mails an den Support von Google gehen doch eh nur ins Leere

Beitrag von **bull** » 06.05.2005, 13:30

Also sind von den 8 Mrd. indizierten Webseiten x,y Mrd Phantom-URLs ?

Na klar!

Dieser "Bug" wird wohl auch erst beseitigt wenn ein jeder solche Phantom-URLs anlinkt, und damit zur Bemuellung des Index beitraegt...

Nicht unbedingt, vielleicht kommt der Müll dann nur als "Zusätzliches Ergebnis", es sind ja heute schon Millionen von nicht mehr existenten Seiten als "Zusätzliches Ergebnis" mit drin, und man kann nur noch den Cache anschauen.

Beitrag von **Airport1** » 06.05.2005, 14:48

> <a href="dxjpidz,ctrzh.html>Text</a> , wie links ersichtlich, das " vergessen vor dem Ankertext

Nunja, leider sind Browser & Co. so "fehlertolerant", dass dafuer die regulaeren Ausdruecke um selbst aus einem eigentlich "fehlerhaften" Link noch etwas Verwertbares rauszuziehen immer komplexer werden

Anscheinend ist der RegExp - oder was auch immer - mit dem Google arbeitet "altbacken" und sucht zwingend nach dem zweiten " wenn es ein erstes " gab... auf sowas verlass ich mich schon lange nimmer ,)