Seite 1 von 1
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 14.08.2005, 23:03
von Chris2005
Hallo,
habe eine robots.txt Frage. Es geht darum, dass in meinem Wordpress Blog die RSS Feed und Trackback URLs ebenfalls "rewrited" werden, so dass sich folgende Struktur ergibt:
Code: Alles auswählen
/blog/dies-ist-ein-post/feed/
/blog/dies-ist-ein-post/trackback/
/blog/dies-ist-ein-weiterer-Artikel/feed/
/blog/dies-ist-ein-weiterer-Artikel/trackback/
usw.
Die /feed/ und /trackback/ "Verzeichnisse" werden per 302 auf die eigentliche URL (also /blog/dies-ist-ein-post/ und /blog/dies-ist-ein-weiterer-Artikel/) umgeleitet.
Ich möchte gerne diese beiden URLs bei
allen Artikeln (also /../feed/ und /../trackback) per robots.txt sperren.
Geht das irgendwie per Wildcard? Google unterstützt Wildcards, aber ich bin mir in dieser Sache über den Syntax nicht ganz im Klaren. Die Google-FAQ gibt das irgendwie nicht her.
Würde folgendes funktionieren?
Code: Alles auswählen
User-Agent: Googlebot
Disallow: *feed/
Disallow: *trackback/
Danke im Voraus für die Antwort.
Chris
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 15.08.2005, 00:02
von Hobby-SEO
Hallo Chris2005,
ich würde folgendes benutzen:
User-Agent: Googlebot
Disallow: /blog/*/feed/
Disallow: /blog/*/trackback/
Nachzulesen hier:
https://maettig.com/?page=PHP/Googles_robots.txt
Hoffe, die Quelle ist seriös - sonst ist meine eigene robots.txt auch falsch.
LG, Hobby-SEO
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 15.08.2005, 00:05
von Chris2005
Hi Hobby-SEO,
das sieht gut aus... Funktioniert das bei Dir? Werde es mal einbauen und mal schauen, wie der G-Bot drauf reagiert...
Chris
edit: Feed leitet natürlich nicht per 302 weiter, aber Google hat da trotzdem nix verloren.

robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 15.08.2005, 00:40
von Hobby-SEO
Hallo Chris,
ich wünschte, ich könnte Dir die Frage beantworten, ob es bei mir funktioniert...
Ich verwende Wildcards ausschließlich für mein Forum; aber abgesehen von der Startseite (forums.html) ist noch nichts im Google-Index. Wahrscheinlich ist mein Forum auch nicht wichtig genug.
Kann aber auch sein, dass der Wechsel der Forensoftware und des verwendeten Verzeichnisses dafür verantwortlich sind. Oder ich habe irgendwo einen Fehler bei der Optimierung des Forums gemacht. Wie auch immer. (Im Gegensatz zu Google spidern Yahoo und MSN die Beiträge in meinem Forum. Aber was nicht ist, kann ja noch werden.)
Wäre wirklich toll von Dir, wenn Du einen Test wagst und über Deine Erfahrungen mit Wildcards in der robots.txt berichtest!
Wünsche einen schönen Wochenanfang
Hobby-SEO
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 15.08.2005, 02:10
von Chris2005
Ich habe das jetzt mal eingebaut. Mal sehen was heute morgen passiert. Ich werde berichten...
Wildcards benutze ich schon in Verbindung mit dem ?. Das funktioniert einwandfrei. Mal schauen, wie das mit den Verzeichnissen ausschaut.
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 21.08.2005, 18:07
von Chris2005
Nachdem sich Google was die täglichen Crawls und Deepcrawls angeht, normal verhält und nur das spidert, was er spidern soll, kann ich bestätigen, dass die Methode
Code: Alles auswählen
User-Agent: Googlebot
Disallow: /blog/*/feed/
Disallow: /blog/*/trackback/
funktioniert. Wenn ich jetzt nur noch msn und Slurp beibringen könnte, die feeds und trackbacks in Ruhe zu lassen ...

robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 23.08.2005, 09:05
von besserwisser
also dazu ist zu sagen, dass es sich nicht um die normale (von allen verstandene) Nomenklatur der robots.txt handelt
>Wenn ich jetzt nur noch msn und Slurp beibringen könnte, die feeds und trackbacks in Ruhe zu lassen ...
womit dann auch das Problem benannt ist.
Die langfristig vernünftigste Variante ist es einzelne Dateien oder Gruppen mit Meta tags noindex zu versehen.
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 24.08.2005, 00:57
von Chris2005
@besserwisser: Da ich den User-Agent genau spezifiziere (nämlich Googlebot) und somit alle anderen bots diesen Teil ignorieren sollen, darf es keine Probleme geben. In der für alle anderen bots geltenden robots.txt ist natürlich kein Wildcard drin. MSN und Slurp haben mit der von mir erstellen robots.txt jedenfalls keine Probleme. Andere bots bisher auch nicht (wobei eh viele per .htaccess gesperrt sind).
Da die "Verzeichnisse" (es sind keine Verzeichnisse, sondern rewritete URLs), "Trackback" und "Feed" von der Blogging-Software erstellt werden, habe ich keinen Einfluss auf noindex. Trackback erzeugt einen 302er und Feed ist eine XML Datei. Insofern würde ein noindex eh nicht funktionieren.
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 24.08.2005, 10:16
von mgutt
Das mit den Wildcards geht nicht.
Das ist eine missverstandene Regel aus der FAQ bei Google. Das * muss mit einem Wort ersetzt werden.
siehe:
www.google.com/robots.txt
www.google.de/robots.txt
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 24.08.2005, 11:00
von Chris2005
Das mit den Wildcards geht nicht.
@mgutt: Bei mir funktioniert es. Bei mir funktioniert es sogar mit
Disallow: /*?. Habe vergessen einen dynamischen Link zu rewriten. Der tauchte nach einem Deepcrawl als URL only im Index auf und er wurde nicht gespidert. (das kann ich anhand der Logfiles nachvollziehen).
Was die oben angegeben Geschichte angeht: Google hat seit der Änderung keine "feed" und "trackback" mehr angefasst. Auch der Mozilla-Bot ist seitdem ruhig.
Genauso kann ich Aussagen wie "Google ignoriert robots.txt" etc.
nicht nachvollziehen.
Die robots.txt von Google enthält keine eigene Rubrik für den Googlebot. Daher ist ein "*" dort auch fehl am Platze.
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 24.08.2005, 12:28
von mgutt
google url console lehnt aber ebenfalls wildcards kategorisch ab.
ich weiß nicht was du da für erfahrungen gemacht haben willst.
ich kann nur feststellen, dass die robots.txt erst nach ca. 2-3 monaten überhaupt wieder beachtet wird.
ich halte das für humbug.
hast du ein beispiel für mich? an hand einem auftritt von dir. würde mir das gerne mal anschauen.
robots.txt: Unterverzeichnis "feed" per Wildcard s
Verfasst: 24.08.2005, 13:09
von Chris2005
google url console lehnt aber ebenfalls wildcards kategorisch ab.
Das stimmt. Funktioniert aber trotzdem.
ich kann nur feststellen, dass die robots.txt erst nach ca. 2-3 monaten überhaupt wieder beachtet wird.
2-3 Monate? Ein Deepcrawl sollte ausreichen... So ist es zumindestens bei mir gewesen, als ich vergessen hatte die wp-login meines BLOGs auszuklammern. Nach dem nächsten Deepcrawl wurde die URL aus dem Index genommen und auf URL only gestellt. Bis diese Skelette allerdings "rauseitern" kann es in der Tat sehr lange dauern.
ich halte das für humbug.
ich nicht. Ist ja auch egal. Der Einbau solche Wildcards in die Google-Sektion der robots.txt schadet auf jeden Fall nicht.
Warum erwähnt Google es explizit in seiner FAQ, wenn es Humbug sein sollte?
hast du ein beispiel für mich?
Andere Auftritte als Referenz würden nichts bringen, da ich dort keine eindeutigen Aussagen in Hinblick auf das Verhalten des G-Bots treffen kann (kein Zugriff auf Logfiles).
Ich kann jedem nur empfehlen das auszuprobieren. Probiere es selber aus. Du hast doch nen schönes PR4 Projekt. Bastel eine dynamische Seite, verlinke sie von der Startseite und Du wirst sehen, dass Google das Ding nicht anpackt (obwohl der Link als URL only im Index auftaucht).
edit: wo wir gerade über die robots.txt sprechen. Du solltest bei Dir diese mal anpassen und den "üblichen" phpBB DC rauswerfen... Google kann die Threads jeweils unter fpost und ftopic spidern...