folgende Situation:
Ich habe eine Seite mit ca. 38.000 Unterseiten vor mir. Davon sind 12.000 Seiten Druckansichten. Das ganze hat den Aufbau seite.htm (Original) und seite.htm?print=true (Druckansicht).
Die Druckansichten sind nun leider schon von fast jeder SuMa gecrawlt und im Index. Daher habe ich in der robots.txt die Anweisung gegeben, dass (die wichtigsten) Crawler ein 404 bekommen, wenn sie eine Druckansicht aufrufen wollen.
Aber ich glaube, dass ich es nicht richtig in der robots.txt (hier beispielhaft für Google) formuliert habe:
Wenn ich den User-Agent via User Agent Switcher (Addon vom Firefox) auf "Googlebot" ändere und die Seiten ansurfe, werden mir dennoch die Seiten angezeigt.User-agent: Googlebot
Disallow: /*?print=true$
Frage:
Funktioniert der Eintrag in den robots.txt nicht oder reicht "Googlebot" nicht als User Agent aus?