Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

google hält sich nicht an robots.txt

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
marc77
PostRank 8
PostRank 8
Beiträge: 849
Registriert: 22.05.2007, 21:41

Beitrag von marc77 » 10.08.2010, 12:09

Hallo,

ja, ich habe den folgenden post auch in einem anderen forum gepostet..ich will aber mehr meinungen. Deswegen auch hier bei den Fachleuten...

ich habe in einem Verzeichnis solche URLs

/rd.php?al=12345

in der Datei rd.php ist eine html weiterleitung nach 2 sekunden zu einer webseite.

in der robots.txt habe ich:

User-agent: *
Disallow: /rd.php

Was macht google? er spidert alle 10 000 rd.php dateien und folgt der Weiterleitung und zeigt jetzt die Fremdseiten in den Serps so an, als ob es meine wäre. sprich bei klick auf den cache wird die fremde seite gelistet..auch deren metas. Dies wollte ich natürlich nie!

da man über die webmaster tools nicht auf einen schlag alle rd.php dateien entfernen kann sondern nur Verzeichnisse, gebe ich jetzt einen 404 aus und habe die rd.php in wl.php umbenannt.

die wl.php habe ich nun auch die robots.txt eingetragen:

User-agent: *
Disallow: /wl.php

rd.php habe ich in der robots.txt entfernt (hätte ich nicht müssen, da google sich eh nicht dran hält), damit google den 404 findet und die seiten hoffentlich bald entfernt. Ja, ein noindex wäre auch möglich!

In der wl.php habe ich jetzt im header einen 403 forbidden eingetragen. Für den fall, dass google sich wieder nicht an die robots.txt hält, bekommt er jetzt nen 403 von mir.

Was macht google? natürlich hält er sich nicht an die robots.txt und müllt jetzt die wmt http Fehler anzeige mit 1000fachen anzeigen ala http fehler 403 bei /wl.php?al=22233

Ich habe auch schon das tool in den wmt "goole aufruf meiner weibseite" genutzt und auch dort gibt er mir den 403 obwohl er bei anderen seiten die in der robots.txt eingetragen sind brav schon auf der ebene zuvor sagt, robots.txt gesperrt...

Was soll ich denn noch tun um google zu sagen, verschwinde von meiner wl.php dateien...?

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 10.08.2010, 12:25

Wann wurde die robots.txt denn das letzte mal von Google heruntergeladen und mit welchem Status?

Was sagen Tests über die WMT? Ich meine nicht den "Aufruf wie durch Googlebot", sondern den robots.txt Test

Wie schaut die komplette robots.txt aus?

profo
PostRank 9
PostRank 9
Beiträge: 1703
Registriert: 18.01.2007, 18:51

Beitrag von profo » 10.08.2010, 12:27

Meine erste Vermutung ist, dass Deine robots.txt fehlerhaft ist. Das könnte sein: sie kann gar nicht abgerufen werden oder das Disallow: steht irgendwo am Ende vom robots.txt, nach einer erlaubenden Regel, oder ...

Wenn Du die Seite bei Google's Webmaster-Tools anmeldest kannst Du dort genau und live ausprobieren, ob die robots.txt wie gewünscht funktioniert, oder warum nicht.

@Synonym, du warst schneller :)

marc77
PostRank 8
PostRank 8
Beiträge: 849
Registriert: 22.05.2007, 21:41

Beitrag von marc77 » 10.08.2010, 14:07

Hi,

der letzte Status war vor 3 Stunden aber die Einträge waren schon länger drin.
Ich hab den Fehler jetzt gefunden. Sie war fehlerhaft aber auch nicht wirklich..ich zeig mal den Fehler..vielleicht hilft es anderen...

Ich hatte

User-agent: *
Disallow: /wl.php
Disallow: /rd.php

User-agent: Googlebot
Disallow: /test
Disallow: /demo

Das ist aber falsch, ich hab rausgefunden, dass sobald Googlebot in der robots.txt steht, er sich nicht mehr an * hält. Ich hab jetzt testweise

Disallow: /wl.php
Disallow: /rd.php

beim googlebot hinzufügt und es geht...es geht auch wenn man googlebot ganz entfernt und nur *

aber beides also * und googlebot nimmt er nicht an...sobald er googlebot findet wird das bei * nicht mehr angenommen.....war vielleicht allen bekannt..mir nicht...

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 10.08.2010, 14:21

Jep, das war bekannt. Wenn Du das ganze im WMT erstellt hättest, dann hättest Du folgende robots.txt bekommen:

Code: Alles auswählen

User-agent: *
Disallow: /wl.php
Disallow: /rd.php
Allow: /

User-agent: Googlebot
Disallow: /demo
Disallow: /test
Disallow: /wl.php
Disallow: /rd.php
Allow: /

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag