Seite 1 von 1

Hilfe beim aussperren von URLs benötigt

Verfasst: 14.01.2008, 12:12
von Thorny
Folgende Situation:
www.domain.tld/dir/1/index.htm
www.domain.tld/dir/1/2/index.htm
www.domain.tld/dir/1/2/3/index.htm
verweisen alle auf die selbe index.htm. Google selbst kennt natürlich viele index.htms mit dem selben Inhalt. Und dutzende Kopien einiger tausend Seiten auch.

Ich suche jetzt einen Ausdruck, um via robots.txt jede URI mit mehr als einer Zahl (an dieser Stelle) für den GoogleBot auszusperren.

Habt ihr eine Idee?

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 14.01.2008, 13:34
von marguardth
einen allgemeinen ausdruck für die robots.txt wirst du nicht finden, da die robots.txt keine regulären ausdrücke unterstützt!
außerdem sind robots.txt direktiven keines wegs sicher.

regel das lieber über eine umleitung in der .htaccess
mod_rewrite und/oder redirect sind deine freunde ... einfach mal danach suchen.

Verfasst: 14.01.2008, 14:14
von Thorny
Verdammt und ich hatte all meine Hoffnung darauf gesetzt -.-

mod_rewrite steht nämlich nicht zur Verfügung.

Verfasst: 16.02.2008, 20:16
von chris21
Hi Thorny,

also eigentlich sollte da für den GoogleBot (und leider nur für diesen):

Code: Alles auswählen

Disallow: /dir/1/*/index.htm
Allow: /dir/1/index.htm
helfen.


@marguarth:
einen allgemeinen ausdruck für die robots.txt wirst du nicht finden, da die robots.txt keine regulären ausdrücke unterstützt!
außerdem sind robots.txt direktiven keines wegs sicher.
Zwar nicht direkt reguläre Ausdrücke, aber der GoogleBot akzeptiert als einer der wenigen schon solche Konstrukte wie oben:

Siehe:

GoogleBot Robots.txt Suchmuster

Verfasst: 17.02.2008, 00:50
von Cash
ich geh mal davon aus das php verfügbar ist.
ändere die index-dateien um in index.php und
ersetze alle ungewünschten Verzeichnisse
mit nachfolgendem Code.
<?
header("HTTP/1.0 301 Moved Permanently");
header('Location: https://www.domain.tld/dir/1/index.htm ');
exit();
?>