Seite 1 von 1

Robots.txt und Wildcards

Verfasst: 15.06.2005, 11:09
von Armi
Hi,

kann jemand bestätigen ob Wildcards in der Robots.txt
funktionieren?

https://www.webmasterworld.com/forum93/404.htm

beziehe mich da auf letztes Posting.

Wenn ja: Gehen Wildcards nur bei Verzeichnissen oder auch bei
sonstigen URLs (url rewrited)?

Also könnte ich mit

Disallow: /*schrott

Urls wie

https://www.meinedomain.de/test1_schrott
https://www.meinedomain.de/test2_schrott
https://www.meinedomain.de/test3_schrott

löschen?

Oder mit

Disallow: /*schrott*

https://www.meinedomain.de/test1_schrott_test
https://www.meinedomain.de/test2_schrott_test
https://www.meinedomain.de/test3_schrott_test



Armi

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Re: Robots.txt und Wildcards

Verfasst: 15.06.2005, 11:14
von LinkPop
https://www.robotstxt.org/wc/faq.html hat geschrieben:Two common errors:

Wildcards are _not_ supported: instead of 'Disallow: /tmp/*' just say 'Disallow: /tmp/'.
You shouldn't put more than one path on a Disallow line (this may change in a future version of the spec)

Robots.txt und Wildcards

Verfasst: 15.06.2005, 11:18
von Armi
Ja, aber in dem Forum steht ja, dass es nicht "Standard" ist, aber von Google beachtet wird.

Ein * am Schluss ist quatsch, es wird alles gelöscht was damit beginnt. Das ist richtig.

Aber ob ein * davor Sinn macht, ist noch ungeklärt.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Robots.txt und Wildcards

Verfasst: 15.06.2005, 11:20
von Armi
Hab da grad was gefunden:

https://www.searchengineworld.com/misc/ ... _crawl.htm

Ganz am Ende....

Verfasst: 15.06.2005, 14:41
von Mario670

Code: Alles auswählen

User-agent: googlebot
Disallow: *.cgi
Kann ich bestätigen, dass klappt

Verfasst: 15.06.2005, 18:19
von LinkPop
Ok, Google beachtet "Wildcard file extensions":
https://www.searchengineworld.com/misc/robots_txt_crawl.htm hat geschrieben:Google is the first search engine to support Wildcard file extensions.

User-agent: googlebot
Disallow: *.cgi
Was aber nicht gleich bedeutet, daß auch [ Disallow: /*schrott ] erkannt und richtig interpretiert wird.

btw: Disallow: *.php ist natürlich ideal für Mode Rewrite-Sites, bei denen alles in z.B. .htm umgeschrieben wird. Somit dürften bei fehlerhaften Rules bzw. Links keine .php-URLs in den Index gelangen.

Verfasst: 15.06.2005, 23:39
von Armi
Mario670 hat geschrieben:

Code: Alles auswählen

User-agent: googlebot
Disallow: *.cgi
Kann ich bestätigen, dass klappt
Aber leider doch nicht mit dem Removal-Tool von Google......

Re: Robots.txt und Wildcards

Verfasst: 17.07.2008, 07:14
von kitaro
Gibt es dazu schon aktuelle Erkentnisse?

Code: Alles auswählen

Disallow: /*?
Würde also bedeuten: Es sollen alle Dateien nicht gecrawlt werden, die ein Fragezeichen enthalten?!

Dasselbe geht ja dann sicherlich auch mit Teile eines Dateinamens wie: ptopic oder post-reply, oder??

Wirdcards heute erkannt ?

Verfasst: 20.01.2009, 10:19
von Torsten.E
Das würde mich auch interessieren, wie Wildcards in der Zwischenzeit in der robots.txt verwendet werden können.

Torsten.E

Verfasst: 05.10.2010, 16:42
von promada
Gibt es dazu schon aktuelle Erkentnisse?

Code:
Disallow: /*?

Ich teste es gerade aus, dauert aber seine Zeit

Verfasst: 05.10.2010, 23:16
von chris21
@promada:

Für Google funzt Deine Anweisung seit Jahren bestens.