Seite 1 von 1
Webmaster Tools - Falsche URLs gespidert
Verfasst: 16.07.2007, 14:59
von marc77
Hallo,
ich hab in meinen webmaster tools bei "nicht gefundende Webseiten" einige 404er gefunden, welche so aussehen:
Arbeitsagentur/contact?lang=
Arbeitsagentur/agb?lang=
Arbeitsagentur/searchbox?lang=
Arbeitsagentur/imprint?lang=
in meinen kompletten code nutze ich keinen "imprint?lang" code . ich verstehe einfach nciht, wo der spider diese Informationen her holt. Gibt es eine Möglichkeit wo ich sehen kann, an was für einem Punkt der Spider diese falschen URLs findet?
Verfasst: 17.07.2007, 11:36
von marc77
gibts denn keine Möglichkeit rauszufinden wo der Spider die falschen URLs findet?
Ein Programm von aussen kann doch nicht fehlerhafte URLs erzeugen oder? Da der Crawler von google ja auf meiner Seite die falschen URLs gefunden hat, gehe ich davon aus, dass irgendein code etc dies ausgelöst hat. Allerdings hab ich in meinem Quellcode definitiv keine solcher Variablen.
bin echt mit den nerven am Ende..täglich spidert der Crawler mehr und mehr falsche URLs, im moment ca. 500 die alle einen 404er auslösen und ich finds einfach nicht! hab mich schon mit xenu selbst gespidert und die logfiles alle durch..ohne Erfolg

..bin ratlos

Verfasst: 17.07.2007, 11:42
von Reddog
ist bei ebenfalls der fall. weiß auch nicht, wie google auf einige urls kommt.
aktuell hat google bei mir über 100 nicht existente urls versucht zu spidern, was nun 404er sind

Verfasst: 17.07.2007, 11:43
von Fantastixxx
Benutzt du das Websitebaker CMS?
Verfasst: 17.07.2007, 11:45
von Reddog
ich nutze typo3
Verfasst: 17.07.2007, 11:48
von Fantastixxx
Ansonsten geh halt in dein CMS via Macromedia oder Sonstiges und da steht irgendwo was, was dir automatisch ein "?lang=" reinsetzt. Müssts halt bissal rumsuchen und den kleinen Codeschnipsel einfach löschen.
Verfasst: 17.07.2007, 11:55
von marc77
ich nutze kein cms und habe bereits mit einem tool alle meine Files per dokumentsuche nach dieses codeschnipsel durchsucht. in all meinen Files gibt es diese codes nicht. es ist für mich einfach unverständlich wie das der spider macht...
kann es sein das jemand per 301 auf mich verlinkt und google deswegen irgendwas anzuhängen versucht?
Re: Webmaster Tools - Falsche URLs gespidert
Verfasst: 17.07.2007, 11:57
von Unifex
marc77 hat geschrieben:
in meinen kompletten code nutze ich keinen "imprint?lang" code . ich verstehe einfach nciht, wo der spider diese Informationen her holt. Gibt es eine Möglichkeit wo ich sehen kann, an was für einem Punkt der Spider diese falschen URLs findet?
Ich hatte bei einer Domain auch schon mal das Problem. Schuld daran war der Einsatz Der google Sitmap bei einem Shop System.
Ich weiß jetzt nicht was du einsetzt aber wenn alle falschen URLs ein Fragezeichen in der URL haben, würde ich den Zugriff dafür in der Robots.txt sperren.
Setzt du keine Sitmaps ein, dann besorg dir das Programm gsitecrawler und lass das über Deine Webseite laufen. Da kannst du dann sehen, ob irgendwo was falsch läuft.
Verfasst: 17.07.2007, 11:57
von Fantastixxx
Dann ist bei deinem Server direkt ne Umleitung drinnen. Log dich ein und schau nach.
Verfasst: 17.07.2007, 12:01
von marc77
@unifex:
ich nutze keine sitemap, da meine systemstruktur sehr gut verlinkt ist. ich weiss nicht wie ich per robots.txt sperren kann, da mittlerweile 400 Unterseiten so enden wie oben beschrieben. Habe meine Seite bereits per xenu gegrawlt und dieser findet diese URLs nicht..wobei xenu seit 8 stunden läuft..sind ca. 30 000 Seiten im index
ich hol mir mal gsitecrawler
Verfasst: 17.07.2007, 13:14
von Unifex
Einfach folgendes in die robots.txt eintragen:
User-agent: *
Disallow: /*?
Aber aufpassen und wie gesagt: keine Url mit Fragezeichen wird mehr gecrawlt ( wenigstens von googlebot)
Verfasst: 17.07.2007, 13:27
von GreenHorn
Du arbeitest aber bestimmt mit php und einer Datenbank? Hast ggf. einen Link zum Wechsel in eine andere Sprache im Quellencode...
Verfasst: 17.07.2007, 15:15
von marc77
@unfix: ok danke, falls ich den Absprungpunkt nicht finden sollte, werde ich es wohl per robots.txt lösen
@greenhorn: richtig, ich arbeite mit php und sql DB und nutze auch mehrere Sprachen, jedoch ist in meiner source definitiv keine dieser oben angegebenen Aufrufe zu finden. Hab jedes einzelne File nach diesen Statements durchforsten lassen..negativ!