Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Googlebot spidert/indiziert invalide URLs (siehe Index)?

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 06.05.2005, 11:42

Die Gretchenfrage:
Wieso spidert der Googlebot ganz offensichtlich invalide URLs bzw. nimmt sie in den Index auf?

Im Index findet man u.a. URLs in der Form wie:
https://www.domain__auto/
https://domain.c/
...

Wuerde man den ganzen offensichtlich invaliden Muell vornherein entfernen, haette man zudem einen schlankeren Index.. gaebe maybe sogar einen kleinen Performance-Schub beim Suchen.

Schlampen hier die Googlebot Entwickler? Schlafen die vielleicht oder wird der seit 199x nicht weiterentwickelt?

Nach aussen hin verkauft sich das jedenfalls nicht gut!
Mein Respekt vor Google ist dadurch jedenfalls gesunken ;)

Google muellt sich ja so selber den Index zu...?
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

marc75
PostRank 9
PostRank 9
Beiträge: 1916
Registriert: 06.10.2004, 09:36

Beitrag von marc75 » 06.05.2005, 12:42

was muss man denn eingeben damit man diese urls in den serps sieht?

Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 06.05.2005, 12:54

Moyn Namensvetter ;)

Die Ergebnisse hab ich gestern gefunden, hab sie aber leider nicht gespeichert.

Es scheint geradezu so, als wuerde nicht mal ein "light" Syntax Check auf die URLs gemacht bevor sie in den Index kommen, oder aber er ist "zu light".

Fuer den Google Suma Index sind folgende Domains "valid":
https://firma/ (keine TLD)
https://firma.x/ (TLD mit 1 Buchstabe!)
https://firma__auto/ (keine TLD)
https://www.firma/ (keine TLD)

Sorry, aber wenn das ein Benutzer der SUMA sieht:
- der technisches Verstaendnis hat: => Kopfschuetteln
- der kein technisches Verstaendnis hat: => klickt drauf, ERROR
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 06.05.2005, 13:03

Also entweder hab ich was verpasst oder es gibt neuerdings eine TLD namens .auto ;)

https://www.google.de/search?hl=de&neww ... uche&meta=
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service


sean
PostRank 10
PostRank 10
Beiträge: 3396
Registriert: 05.01.2004, 20:26
Wohnort: Leipzig/Karlsruhe

Beitrag von sean » 06.05.2005, 13:24

Google scheider da wohl die Domains falsch ab.

Bei seo steht das in der serp:
www.web-site-design.seo/

und sollte wohl das hier heissen:

https://www.web-site-design.seo-web-design.co.uk

ab dem Bindestrich geht etwas schief. Ob die aber auch in den "normalen" Serps auftauchen weiß ich nicht.

Gruß

sean

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 06.05.2005, 13:24

Das ist ja nichts neues, ich habe, wie bereits berichtet, vor einigen Monaten bei einem Link <a href="dxjpidz,ctrzh.html>Text</a> , wie links ersichtlich, das " vergessen vor dem Ankertext, und prompt hat der Bot den Rest der Datei als URL interpretiert, versucht diese URL zu spidern und diese URL, trotz des 404, in den Index aufgenommen. Es ist vollkommen irrelevant, ob Dateien oder Domains existieren, solange ein Link darauf zeigt, taucht das auch in den SERPs auf. Daher auch die 8 Milliarden "indizierten" Seiten... :lol:

Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 06.05.2005, 13:27

Also sind von den 8 Mrd. indizierten Webseiten x,y Mrd Phantom-URLs ?

Dieser "Bug" wird wohl auch erst beseitigt wenn ein jeder solche Phantom-URLs anlinkt, und damit zur Bemuellung des Index beitraegt...

Mails an den Support von Google gehen doch eh nur ins Leere ;)
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 06.05.2005, 13:30

Also sind von den 8 Mrd. indizierten Webseiten x,y Mrd Phantom-URLs ?
Na klar!
Dieser "Bug" wird wohl auch erst beseitigt wenn ein jeder solche Phantom-URLs anlinkt, und damit zur Bemuellung des Index beitraegt...
Nicht unbedingt, vielleicht kommt der Müll dann nur als "Zusätzliches Ergebnis", es sind ja heute schon Millionen von nicht mehr existenten Seiten als "Zusätzliches Ergebnis" mit drin, und man kann nur noch den Cache anschauen. :idea:

Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 06.05.2005, 14:48

> <a href="dxjpidz,ctrzh.html>Text</a> , wie links ersichtlich, das " vergessen vor dem Ankertext

Nunja, leider sind Browser & Co. so "fehlertolerant", dass dafuer die regulaeren Ausdruecke um selbst aus einem eigentlich "fehlerhaften" Link noch etwas Verwertbares rauszuziehen immer komplexer werden ;)

Anscheinend ist der RegExp - oder was auch immer - mit dem Google arbeitet "altbacken" und sucht zwingend nach dem zweiten " wenn es ein erstes " gab... auf sowas verlass ich mich schon lange nimmer ,)
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag