Seite 1 von 1

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 11:42
von Airport1
Die Gretchenfrage:
Wieso spidert der Googlebot ganz offensichtlich invalide URLs bzw. nimmt sie in den Index auf?

Im Index findet man u.a. URLs in der Form wie:
https://www.domain__auto/
https://domain.c/
...

Wuerde man den ganzen offensichtlich invaliden Muell vornherein entfernen, haette man zudem einen schlankeren Index.. gaebe maybe sogar einen kleinen Performance-Schub beim Suchen.

Schlampen hier die Googlebot Entwickler? Schlafen die vielleicht oder wird der seit 199x nicht weiterentwickelt?

Nach aussen hin verkauft sich das jedenfalls nicht gut!
Mein Respekt vor Google ist dadurch jedenfalls gesunken ;)

Google muellt sich ja so selber den Index zu...?

Verfasst:
von

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 12:42
von marc75
was muss man denn eingeben damit man diese urls in den serps sieht?

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 12:54
von Airport1
Moyn Namensvetter ;)

Die Ergebnisse hab ich gestern gefunden, hab sie aber leider nicht gespeichert.

Es scheint geradezu so, als wuerde nicht mal ein "light" Syntax Check auf die URLs gemacht bevor sie in den Index kommen, oder aber er ist "zu light".

Fuer den Google Suma Index sind folgende Domains "valid":
https://firma/ (keine TLD)
https://firma.x/ (TLD mit 1 Buchstabe!)
https://firma__auto/ (keine TLD)
https://www.firma/ (keine TLD)

Sorry, aber wenn das ein Benutzer der SUMA sieht:
- der technisches Verstaendnis hat: => Kopfschuetteln
- der kein technisches Verstaendnis hat: => klickt drauf, ERROR

Verfasst:
von

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 13:03
von Airport1
Also entweder hab ich was verpasst oder es gibt neuerdings eine TLD namens .auto ;)

https://www.google.de/search?hl=de&neww ... uche&meta=

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 13:19
von sean
:-)

das geht mit "a" https://www.google.de/search?hl=de&neww ... uche&meta=
"b"
https://www.google.de/search?hl=de&neww ... uche&meta=
und so weiter...

geht auch mit "hund"
https://www.google.de/search?hl=de&neww ... uche&meta=

"katze"
https://www.google.de/search?hl=de&neww ... uche&meta=

und "maus"
https://www.google.de/search?hl=de&neww ... uche&meta=

und "bug"
https://www.google.de/search?num=100&hl ... uche&meta=

und auch "google"
https://www.google.de/search?num=100&hl ... uche&meta=

und "seo"
https://www.google.de/search?num=100&hl ... uche&meta=

:-)

sean

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 13:24
von sean
Google scheider da wohl die Domains falsch ab.

Bei seo steht das in der serp:
www.web-site-design.seo/

und sollte wohl das hier heissen:

https://www.web-site-design.seo-web-design.co.uk

ab dem Bindestrich geht etwas schief. Ob die aber auch in den "normalen" Serps auftauchen weiß ich nicht.

Gruß

sean

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 13:24
von bull
Das ist ja nichts neues, ich habe, wie bereits berichtet, vor einigen Monaten bei einem Link <a href="dxjpidz,ctrzh.html>Text</a> , wie links ersichtlich, das " vergessen vor dem Ankertext, und prompt hat der Bot den Rest der Datei als URL interpretiert, versucht diese URL zu spidern und diese URL, trotz des 404, in den Index aufgenommen. Es ist vollkommen irrelevant, ob Dateien oder Domains existieren, solange ein Link darauf zeigt, taucht das auch in den SERPs auf. Daher auch die 8 Milliarden "indizierten" Seiten... :lol:

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 13:27
von Airport1
Also sind von den 8 Mrd. indizierten Webseiten x,y Mrd Phantom-URLs ?

Dieser "Bug" wird wohl auch erst beseitigt wenn ein jeder solche Phantom-URLs anlinkt, und damit zur Bemuellung des Index beitraegt...

Mails an den Support von Google gehen doch eh nur ins Leere ;)

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 13:30
von bull
Also sind von den 8 Mrd. indizierten Webseiten x,y Mrd Phantom-URLs ?
Na klar!
Dieser "Bug" wird wohl auch erst beseitigt wenn ein jeder solche Phantom-URLs anlinkt, und damit zur Bemuellung des Index beitraegt...
Nicht unbedingt, vielleicht kommt der Müll dann nur als "Zusätzliches Ergebnis", es sind ja heute schon Millionen von nicht mehr existenten Seiten als "Zusätzliches Ergebnis" mit drin, und man kann nur noch den Cache anschauen. :idea:

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Verfasst: 06.05.2005, 14:48
von Airport1
> <a href="dxjpidz,ctrzh.html>Text</a> , wie links ersichtlich, das " vergessen vor dem Ankertext

Nunja, leider sind Browser & Co. so "fehlertolerant", dass dafuer die regulaeren Ausdruecke um selbst aus einem eigentlich "fehlerhaften" Link noch etwas Verwertbares rauszuziehen immer komplexer werden ;)

Anscheinend ist der RegExp - oder was auch immer - mit dem Google arbeitet "altbacken" und sucht zwingend nach dem zweiten " wenn es ein erstes " gab... auf sowas verlass ich mich schon lange nimmer ,)