Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

google hält sich nicht an robots.txt

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
marc77
PostRank 8
PostRank 8
Beiträge: 849
Registriert: 22.05.2007, 21:41

Beitrag von marc77 » 10.08.2010, 12:09

Hallo,

ja, ich habe den folgenden post auch in einem anderen forum gepostet..ich will aber mehr meinungen. Deswegen auch hier bei den Fachleuten...

ich habe in einem Verzeichnis solche URLs

/rd.php?al=12345

in der Datei rd.php ist eine html weiterleitung nach 2 sekunden zu einer webseite.

in der robots.txt habe ich:

User-agent: *
Disallow: /rd.php

Was macht google? er spidert alle 10 000 rd.php dateien und folgt der Weiterleitung und zeigt jetzt die Fremdseiten in den Serps so an, als ob es meine wäre. sprich bei klick auf den cache wird die fremde seite gelistet..auch deren metas. Dies wollte ich natürlich nie!

da man über die webmaster tools nicht auf einen schlag alle rd.php dateien entfernen kann sondern nur Verzeichnisse, gebe ich jetzt einen 404 aus und habe die rd.php in wl.php umbenannt.

die wl.php habe ich nun auch die robots.txt eingetragen:

User-agent: *
Disallow: /wl.php

rd.php habe ich in der robots.txt entfernt (hätte ich nicht müssen, da google sich eh nicht dran hält), damit google den 404 findet und die seiten hoffentlich bald entfernt. Ja, ein noindex wäre auch möglich!

In der wl.php habe ich jetzt im header einen 403 forbidden eingetragen. Für den fall, dass google sich wieder nicht an die robots.txt hält, bekommt er jetzt nen 403 von mir.

Was macht google? natürlich hält er sich nicht an die robots.txt und müllt jetzt die wmt http Fehler anzeige mit 1000fachen anzeigen ala http fehler 403 bei /wl.php?al=22233

Ich habe auch schon das tool in den wmt "goole aufruf meiner weibseite" genutzt und auch dort gibt er mir den 403 obwohl er bei anderen seiten die in der robots.txt eingetragen sind brav schon auf der ebene zuvor sagt, robots.txt gesperrt...

Was soll ich denn noch tun um google zu sagen, verschwinde von meiner wl.php dateien...?