Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Hilfe beim aussperren von URLs benötigt

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Thorny
PostRank 4
PostRank 4
Beiträge: 110
Registriert: 08.01.2008, 15:49

Beitrag von Thorny » 14.01.2008, 12:12

Folgende Situation:
www.domain.tld/dir/1/index.htm
www.domain.tld/dir/1/2/index.htm
www.domain.tld/dir/1/2/3/index.htm
verweisen alle auf die selbe index.htm. Google selbst kennt natürlich viele index.htms mit dem selben Inhalt. Und dutzende Kopien einiger tausend Seiten auch.

Ich suche jetzt einen Ausdruck, um via robots.txt jede URI mit mehr als einer Zahl (an dieser Stelle) für den GoogleBot auszusperren.

Habt ihr eine Idee?

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 14.01.2008, 13:34

einen allgemeinen ausdruck für die robots.txt wirst du nicht finden, da die robots.txt keine regulären ausdrücke unterstützt!
außerdem sind robots.txt direktiven keines wegs sicher.

regel das lieber über eine umleitung in der .htaccess
mod_rewrite und/oder redirect sind deine freunde ... einfach mal danach suchen.

Thorny
PostRank 4
PostRank 4
Beiträge: 110
Registriert: 08.01.2008, 15:49

Beitrag von Thorny » 14.01.2008, 14:14

Verdammt und ich hatte all meine Hoffnung darauf gesetzt -.-

mod_rewrite steht nämlich nicht zur Verfügung.

chris21
PostRank 9
PostRank 9
Beiträge: 2758
Registriert: 10.04.2005, 18:17

Beitrag von chris21 » 16.02.2008, 20:16

Hi Thorny,

also eigentlich sollte da für den GoogleBot (und leider nur für diesen):

Code: Alles auswählen

Disallow: /dir/1/*/index.htm
Allow: /dir/1/index.htm
helfen.


@marguarth:
einen allgemeinen ausdruck für die robots.txt wirst du nicht finden, da die robots.txt keine regulären ausdrücke unterstützt!
außerdem sind robots.txt direktiven keines wegs sicher.
Zwar nicht direkt reguläre Ausdrücke, aber der GoogleBot akzeptiert als einer der wenigen schon solche Konstrukte wie oben:

Siehe:

GoogleBot Robots.txt Suchmuster

Cash
PostRank 6
PostRank 6
Beiträge: 416
Registriert: 02.11.2005, 15:06

Beitrag von Cash » 17.02.2008, 00:50

ich geh mal davon aus das php verfügbar ist.
ändere die index-dateien um in index.php und
ersetze alle ungewünschten Verzeichnisse
mit nachfolgendem Code.
<?
header("HTTP/1.0 301 Moved Permanently");
header('Location: https://www.domain.tld/dir/1/index.htm ');
exit();
?>

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag