Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Seiten mit bestimmten Parameter via robots.txt ausschließen

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Thorny
PostRank 4
PostRank 4
Beiträge: 110
Registriert: 08.01.2008, 15:49

Beitrag von Thorny » 08.01.2008, 16:22

Hallo,

folgende Situation:
Ich habe eine Seite mit ca. 38.000 Unterseiten vor mir. Davon sind 12.000 Seiten Druckansichten. Das ganze hat den Aufbau seite.htm (Original) und seite.htm?print=true (Druckansicht).

Die Druckansichten sind nun leider schon von fast jeder SuMa gecrawlt und im Index. Daher habe ich in der robots.txt die Anweisung gegeben, dass (die wichtigsten) Crawler ein 404 bekommen, wenn sie eine Druckansicht aufrufen wollen.

Aber ich glaube, dass ich es nicht richtig in der robots.txt (hier beispielhaft für Google) formuliert habe:
User-agent: Googlebot
Disallow: /*?print=true$
Wenn ich den User-Agent via User Agent Switcher (Addon vom Firefox) auf "Googlebot" ändere und die Seiten ansurfe, werden mir dennoch die Seiten angezeigt.

Frage:
Funktioniert der Eintrag in den robots.txt nicht oder reicht "Googlebot" nicht als User Agent aus?