Seiten mit bestimmten Parameter via robots.txt ausschließen

Beitrag von **Thorny** » 08.01.2008, 16:22

Hallo,

folgende Situation:
Ich habe eine Seite mit ca. 38.000 Unterseiten vor mir. Davon sind 12.000 Seiten Druckansichten. Das ganze hat den Aufbau seite.htm (Original) und seite.htm?print=true (Druckansicht).

Die Druckansichten sind nun leider schon von fast jeder SuMa gecrawlt und im Index. Daher habe ich in der robots.txt die Anweisung gegeben, dass (die wichtigsten) Crawler ein 404 bekommen, wenn sie eine Druckansicht aufrufen wollen.

Aber ich glaube, dass ich es nicht richtig in der robots.txt (hier beispielhaft für Google) formuliert habe:

User-agent: Googlebot
Disallow: /*?print=true$

Wenn ich den User-Agent via User Agent Switcher (Addon vom Firefox) auf "Googlebot" ändere und die Seiten ansurfe, werden mir dennoch die Seiten angezeigt.

Frage:
Funktioniert der Eintrag in den robots.txt nicht oder reicht "Googlebot" nicht als User Agent aus?

von **Anzeige von ABAKUS** »

Beitrag von **Thorny** » 09.01.2008, 08:46

Mir ist erst jetzt gerade erst aufgefallen, dass man bei den Google-Webmastertools es schlicht ausprobieren kann.
Damit hat sich das Problem erledigt