Ich möchte aber in der Robots.txt diesen Link ausschließen damit er nicht gespidert wird. Insbesondere von Google
Bin jetzt aber verwirrt da google ja auch wildcards beim interpretieren der robots.txt liest z.b. ?
ist es demnach richtig wenn ich dies so
in meiner robots.txt angebe ?
Disallow: /index.php?actpage=artikel
Ich möchte nämlich ausschließen, das google eventuell auf die idee kommt die kompletten seiten index.php mit parametern nicht mehr zu spidern. Es gibt da natürlich noch andere die allerdings unbedingt gespidert werden sollen. bloß der actpage parameter ändert sich da.
Hab da nicht soviel erfahrung deshalb bräuchte ich hier professionellen rat.
Google wird Deine Anweisung schon verstehen und nur die index mit diesem Parameter actpage=artikel rauswerfen. Da das Sperren einer Seite über robots.txt aber nicht zwangsläufig zum Nichtmehrerscheinen der Seite index.php?actpage=artikel in den SERPs führt, könntest Du noch überlegen, ob Du zusätzlich über eine php if Kondition einen noindex senden willst.
Falls Du die Webmaster Tools unter www.google.de/webmasters/ nutzt: da gibt es u.a. ein Tool zum testen Deiner robots.txt. Dort kannst Du vorab prüfen, welche Auswirkungen Deine robots.txt hat, bevor Du sie live schaltest.
bei den Webmastertools gibt es einen Unterpunkt robots.txt Analyse, damit kannst Du testen, ob eine Unterseite durch Deine robots.txt von der Indizierung gesperrt wird oder nicht.
Ich möchte da mal kurz einhaken. Ist es möglich dem Bot per robots.txt zu sagen, dass er z.B. keine php-Dateien ohne Parameter (?foo=bar) spidern darf? Also anders rum: Es dürfen nur Seiten aufgenommen werden die datei.php?foo=bar und nicht datei.php lauten.