Wie kann ich gewisse Seiten vor den Robots ausschliessen?

Beitrag von **DaniP1976** » 08.08.2005, 20:07

Hallo,

ich möchte dieser Art Seiten:
www.wohnungsboerse.net/image.php?id=1876&big=1

vor den Robots ausschliessen, so daß sie nicht in googles index kommen.
Im moment habe ich in der robots.txt das hier stehen:

User-agent: *
Disallow: /image.php

das scheint aber nicht zu gehen, denn es sind schon wieder neue Seiten im Index.

Wer kann mir helfen.
LG Dani

von **Anzeige von ABAKUS** »

Beitrag von **heddesheimer** » 08.08.2005, 21:43

Nicht alle Robots beachten die robots.txt

Die "seriösen" Suchmaschinen wie Google, Yahoo etc. sollten sich eigentlich daran halten. Ich sehe schon, wo du bei Google das Problem hast. Vermutlich wird der Parameter hinter dem image.php als URL mit interpretiert, so dass der Ausschluss von "image.php" allein hier nicht greift.

Die einzige Lösung, die mir auf Anhieb einfällt: Packe das Skript image.php in ein anderes Verzeichnis (z.B. /images/) und füge ein Disallow: /images/ in die robots.txt ein. Damit solltest du alle Abfrufe in diesem Verzeichnis (mit oder ohne Parameter) von den Suchmaschinen fernhalten können.

Gruß Marian

Beitrag von **DaniP1976** » 08.08.2005, 21:54

Hi, ich fürchte das geht vom Aufbau der Seite nicht´, das ich das php-script verschiebe. Aber ich werde noch mal schauen. Danke schonmal.

LG Dani

Beitrag von **Chris2005** » 08.08.2005, 22:56

@DaniP1976: sind die Seiten gespidert worden (Logfiles kontrollieren) oder tauchen sie nur als Karteileichen auf? Der Gogglebot packt jede Seite, die er findet (auch wenn die in der robots.txt gelistet ist), als URL-only in den Index. Gespidert wird da aber nix.

Ansonsten es mal mit

Code: Alles auswählen

User-Agent&#58; *
Disallow&#58; /image

probieren. msn, yahoo und google halten sich daran. Der Rest ist eh (zumindestens aus Suma-Sicht) uninteressant. Für den Rest muss man zu anderen Methoden greifen (.htaccess)

Beitrag von **netnut** » 09.08.2005, 00:28

Die Bots schnappen sich die robots.txt nicht bei jedem Besuch, sondern laut FAQs bei G und Co. nur alle paar Monate. Wenn Du es beschleunigen willst bietet G diese Seite:
https://services.google.com/urlconsole/controller
Damit wird die robots.txt sofort geladen und alle gesperrten Seiten fliehgen binnen 24 Stunden aus dem Index.

Beitrag von **DaniP1976** » 09.08.2005, 17:04

Danke für den Tipp.Bin gespannt obs geht. LG Dani