robots.txt: Unterverzeichnis "feed" per Wildcard s

Beitrag von **Chris2005** » 14.08.2005, 23:03

Hallo,

habe eine robots.txt Frage. Es geht darum, dass in meinem Wordpress Blog die RSS Feed und Trackback URLs ebenfalls "rewrited" werden, so dass sich folgende Struktur ergibt:

Code: Alles auswählen

/blog/dies-ist-ein-post/feed/
/blog/dies-ist-ein-post/trackback/

/blog/dies-ist-ein-weiterer-Artikel/feed/
/blog/dies-ist-ein-weiterer-Artikel/trackback/
usw.

Die /feed/ und /trackback/ "Verzeichnisse" werden per 302 auf die eigentliche URL (also /blog/dies-ist-ein-post/ und /blog/dies-ist-ein-weiterer-Artikel/) umgeleitet.

Ich möchte gerne diese beiden URLs bei allen Artikeln (also /../feed/ und /../trackback) per robots.txt sperren.

Geht das irgendwie per Wildcard? Google unterstützt Wildcards, aber ich bin mir in dieser Sache über den Syntax nicht ganz im Klaren. Die Google-FAQ gibt das irgendwie nicht her.

Würde folgendes funktionieren?

Code: Alles auswählen

User-Agent&#58; Googlebot
Disallow&#58; *feed/
Disallow&#58; *trackback/

Danke im Voraus für die Antwort.

Chris

von **Anzeige von ABAKUS** »

Beitrag von **Hobby-SEO** » 15.08.2005, 00:02

Hallo Chris2005,

ich würde folgendes benutzen:

User-Agent: Googlebot
Disallow: /blog/*/feed/
Disallow: /blog/*/trackback/

Nachzulesen hier: https://maettig.com/?page=PHP/Googles_robots.txt

Hoffe, die Quelle ist seriös - sonst ist meine eigene robots.txt auch falsch.

LG, Hobby-SEO

Beitrag von **Chris2005** » 15.08.2005, 00:05

Hi Hobby-SEO,

das sieht gut aus... Funktioniert das bei Dir? Werde es mal einbauen und mal schauen, wie der G-Bot drauf reagiert...

Chris

edit: Feed leitet natürlich nicht per 302 weiter, aber Google hat da trotzdem nix verloren.

Beitrag von **Hobby-SEO** » 15.08.2005, 00:40

Hallo Chris,

ich wünschte, ich könnte Dir die Frage beantworten, ob es bei mir funktioniert...

Ich verwende Wildcards ausschließlich für mein Forum; aber abgesehen von der Startseite (forums.html) ist noch nichts im Google-Index. Wahrscheinlich ist mein Forum auch nicht wichtig genug.
Kann aber auch sein, dass der Wechsel der Forensoftware und des verwendeten Verzeichnisses dafür verantwortlich sind. Oder ich habe irgendwo einen Fehler bei der Optimierung des Forums gemacht. Wie auch immer. (Im Gegensatz zu Google spidern Yahoo und MSN die Beiträge in meinem Forum. Aber was nicht ist, kann ja noch werden.)

Wäre wirklich toll von Dir, wenn Du einen Test wagst und über Deine Erfahrungen mit Wildcards in der robots.txt berichtest!

Wünsche einen schönen Wochenanfang
Hobby-SEO

Beitrag von **Chris2005** » 15.08.2005, 02:10

Ich habe das jetzt mal eingebaut. Mal sehen was heute morgen passiert. Ich werde berichten...

Wildcards benutze ich schon in Verbindung mit dem ?. Das funktioniert einwandfrei. Mal schauen, wie das mit den Verzeichnissen ausschaut.

Beitrag von **Chris2005** » 21.08.2005, 18:07

Nachdem sich Google was die täglichen Crawls und Deepcrawls angeht, normal verhält und nur das spidert, was er spidern soll, kann ich bestätigen, dass die Methode

Code: Alles auswählen

User-Agent&#58; Googlebot
Disallow&#58; /blog/*/feed/
Disallow&#58; /blog/*/trackback/

funktioniert. Wenn ich jetzt nur noch msn und Slurp beibringen könnte, die feeds und trackbacks in Ruhe zu lassen ...

Beitrag von **besserwisser** » 23.08.2005, 09:05

also dazu ist zu sagen, dass es sich nicht um die normale (von allen verstandene) Nomenklatur der robots.txt handelt
>Wenn ich jetzt nur noch msn und Slurp beibringen könnte, die feeds und trackbacks in Ruhe zu lassen ...
womit dann auch das Problem benannt ist.

Die langfristig vernünftigste Variante ist es einzelne Dateien oder Gruppen mit Meta tags noindex zu versehen.

Beitrag von **Chris2005** » 24.08.2005, 00:57

@besserwisser: Da ich den User-Agent genau spezifiziere (nämlich Googlebot) und somit alle anderen bots diesen Teil ignorieren sollen, darf es keine Probleme geben. In der für alle anderen bots geltenden robots.txt ist natürlich kein Wildcard drin. MSN und Slurp haben mit der von mir erstellen robots.txt jedenfalls keine Probleme. Andere bots bisher auch nicht (wobei eh viele per .htaccess gesperrt sind).

Da die "Verzeichnisse" (es sind keine Verzeichnisse, sondern rewritete URLs), "Trackback" und "Feed" von der Blogging-Software erstellt werden, habe ich keinen Einfluss auf noindex. Trackback erzeugt einen 302er und Feed ist eine XML Datei. Insofern würde ein noindex eh nicht funktionieren.

Beitrag von **mgutt** » 24.08.2005, 10:16

Das mit den Wildcards geht nicht.

Das ist eine missverstandene Regel aus der FAQ bei Google. Das * muss mit einem Wort ersetzt werden.

siehe:

www.google.com/robots.txt
www.google.de/robots.txt

Beitrag von **Chris2005** » 24.08.2005, 11:00

Das mit den Wildcards geht nicht.

@mgutt: Bei mir funktioniert es. Bei mir funktioniert es sogar mit Disallow: /*?. Habe vergessen einen dynamischen Link zu rewriten. Der tauchte nach einem Deepcrawl als URL only im Index auf und er wurde nicht gespidert. (das kann ich anhand der Logfiles nachvollziehen).

Was die oben angegeben Geschichte angeht: Google hat seit der Änderung keine "feed" und "trackback" mehr angefasst. Auch der Mozilla-Bot ist seitdem ruhig.

Genauso kann ich Aussagen wie "Google ignoriert robots.txt" etc. nicht nachvollziehen.

www.google.com/robots.txt
www.google.de/robots.txt

Die robots.txt von Google enthält keine eigene Rubrik für den Googlebot. Daher ist ein "*" dort auch fehl am Platze.

Beitrag von **mgutt** » 24.08.2005, 12:28

google url console lehnt aber ebenfalls wildcards kategorisch ab.

ich weiß nicht was du da für erfahrungen gemacht haben willst.

ich kann nur feststellen, dass die robots.txt erst nach ca. 2-3 monaten überhaupt wieder beachtet wird.

ich halte das für humbug.

hast du ein beispiel für mich? an hand einem auftritt von dir. würde mir das gerne mal anschauen.

Beitrag von **Chris2005** » 24.08.2005, 13:09

google url console lehnt aber ebenfalls wildcards kategorisch ab.

Das stimmt. Funktioniert aber trotzdem.

ich kann nur feststellen, dass die robots.txt erst nach ca. 2-3 monaten überhaupt wieder beachtet wird.

2-3 Monate? Ein Deepcrawl sollte ausreichen... So ist es zumindestens bei mir gewesen, als ich vergessen hatte die wp-login meines BLOGs auszuklammern. Nach dem nächsten Deepcrawl wurde die URL aus dem Index genommen und auf URL only gestellt. Bis diese Skelette allerdings "rauseitern" kann es in der Tat sehr lange dauern.

ich halte das für humbug.

ich nicht. Ist ja auch egal. Der Einbau solche Wildcards in die Google-Sektion der robots.txt schadet auf jeden Fall nicht.

Warum erwähnt Google es explizit in seiner FAQ, wenn es Humbug sein sollte?

hast du ein beispiel für mich?

Andere Auftritte als Referenz würden nichts bringen, da ich dort keine eindeutigen Aussagen in Hinblick auf das Verhalten des G-Bots treffen kann (kein Zugriff auf Logfiles).

Ich kann jedem nur empfehlen das auszuprobieren. Probiere es selber aus. Du hast doch nen schönes PR4 Projekt. Bastel eine dynamische Seite, verlinke sie von der Startseite und Du wirst sehen, dass Google das Ding nicht anpackt (obwohl der Link als URL only im Index auftaucht).

edit: wo wir gerade über die robots.txt sprechen. Du solltest bei Dir diese mal anpassen und den "üblichen" phpBB DC rauswerfen... Google kann die Threads jeweils unter fpost und ftopic spidern...