Seite 1 von 1
robots.txt
Verfasst: 19.09.2007, 14:00
von Dooing
Hallo, habe eine Webseite mit dynamischen Inhalten, die ich über url rewriting als statisch erscheinen lasse.
beispiel:
www.meineseite.de/affe/banane/beschreib ... jhjhj.html
nun möchte ich den Crawler von "allen Unterverzeichnisen" /beschreibung auschließen. D.h. ich bräuchte sowas wie:
Disallow: /*/*/beschreibung/*
Gibt es solch einen Sternselektor?
An Infos zur robots.txt habe ich nur die Wikipedia Seite finden können, und die sagt nix dazu (mal abesehen davon, dass es nicht mal ein richtiger Standard ist)
Danke,
Marcus
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 19.09.2007, 14:23
von WilliWusel
Wenn man nach "robots.txt" sucht, findet man als ersten Treffer folgenden:
=>
https://de.selfhtml.org/diverses/robots.htm
Disallow: /beschreibung/ sollte reichen.
Verfasst: 19.09.2007, 15:31
von Dooing
Habe es mir gerade durchgelesen. Dort steht lediglich, dass Wildcards verboten sind.
Ansonsten steht da, dass man mit /index das root verzeichnis /index/ ausperren kann, und mit /unsinn/ das root verzeichnis /unsinn/ sowie mit /temp/ das root verzeichnis (also ich meine verzeichnis direkt im root) /root/ ausperren kann.
Da steht aber nicht ausdrücklich, dass /unsinn/ alle URLS, die /unsinn/ enthalten ausperren wird.
Weißt du das also gaaanz sicher?!
Danke,
Marcus
Verfasst: 19.09.2007, 15:42
von WilliWusel
Wer lesen kann, ist klar im Vorteil:
Im ersten der obigen Beispiel-Datensätze wird angenommen, dass ein superschlauer Robot namens UniversalRobot/1.0 sowie ein selbstgestrickter Robot namens mein-Robot Daten aus dem Verzeichnis /quellen/dtd/ in ihre Suchmaschinen einspeisen. Das ist aber nicht erwünscht, weil in diesem Verzeichnis beispielsweise DTDs für XML-Dateien abgespeichert sind. Deshalb wird speziell diesen beiden Robots der Zugriff auf dieses Verzeichnis (und alle Unterverzeichnisse davon) verboten.
Nachtrag: bezüglich der Verzeichnistiefe muss ich eben noch mal forschen...

Verfasst: 21.09.2007, 10:38
von WilliWusel
Ich muss gestehen, dass ich nicht herausgefunden habe, ab wo gesucht wird. Die einschlägigen Quellen sind da nicht eindeutig genug.
Verfasst: 21.09.2007, 21:45
von Beach-Baer
Moin Moin,
also für Google würde es ein:
Disallow: */beschreibung/*
tun. Google kann sehr gut mit Wildcards. Die Anderen hängen da noch etwas nach.
Gruß Kay
Verfasst: 22.09.2007, 02:19
von To-Bi-As
What should be listed on the Disallow line?
The Disallow line lists the pages you want to block. You can list a specific URL or a pattern. The entry should begin with a forward slash (/).
* To block the entire site, use a forward slash.
Disallow: /
* To block a directory and everything in it, follow the directory name with a forward slash.
Disallow: /private_directory/
* To block a page, list the page.
Disallow: /private_file.html
also ein
reicht aus, auch für Unterordner. Welche Ordner davor kommen ist egal, die danach sind aber auch gesperrt.
Funzt auch, habs bei mir selber so.
Gruß, Ingo