robots.txt :: alles außer Startseite ausschließen

Beitrag von **evel** » 14.10.2011, 16:03

Hallo,
hab mich schon versucht schlau zu machen, hab aber noch keine rechte Lösung gefunden. Vielleicht kann mir hier jemand nen guten Tipp geben

.

Ich möchte in der robots.txt alle Unterseiten einer Domain von einer möglichen Indexierung ausschließen.
Einzig und allein die Startseite soll indexierbar sein.

Wie kann ich das in der robots.txt am elegantesten angeben?
Ich habe Antworten dazu gefunden, wie ich bestimmte Seiten oder Verzeichnisse von der Indexierung ausschließen kann. Nicht aber, wie ich alles außer der Startseite ausschließen kann.

Ich freue mich auf Ideen und Lösungen von Euch.
Gruß evel

von **Anzeige von ABAKUS** »

Beitrag von **johnny44** » 15.10.2011, 10:37

Ich würde alle Unterseiten sperren

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /a
Disallow&#58; /b
...
Disallow&#58; /y
Disallow&#58; /z

Beitrag von **luzie** » 17.10.2011, 09:10

KEIN "Allow" ("allow" ist im Robots Exclusion Standard NICHT vorgesehen), die Folge davon sieht man schon hier:

User-agent: *
Disallow: /
Allow: /startseite.html

Was denn nun? Ja oder ja oder nein oder was??

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **evel** » 17.10.2011, 09:24

vielen Dank für Eure Lösungsvorschläge.

@johnny44
es gibt leider Websites, bei deren Größe diese Lösung nicht möglich ist

@KAW
Ich meinte mit Startseite, dass die example.de indexiert werden darf.
Könnte das dann so aussehen?

User-agent: *
Disallow: /*?*
Allow: www.example.de

Brauche ich dann das Allow überhaubt noch?

Gruß, evel

Beitrag von **evel** » 17.10.2011, 09:47

ja genau - alles muss raus

klingt komisch, ist aber so

verstehe ich das richtig?
/*?* steht dann also für alles, was nach dem / kommt?

und die /index.html kann ich dann ja per 301 auf die example.com weiterleiten, oder?

Beitrag von **evel** » 17.10.2011, 10:02

ah ok, hab's verstanden.
Vielen, vielen Dank für Deine Mühe KAW.

Ich werd's ausprobieren - viel kaputt machen kann ich in dem Fall ja nicht.

Gruß, evel

Beitrag von **evel** » 17.10.2011, 10:14

Gern, wird aber wahrscheinlich n bisschen dauern - unsere Suchmaschinen sind bei solchen Angelegenheiten ja eher etwas langsamer.

Beitrag von **luzie** » 17.10.2011, 11:04

GRR! Du sollst kein "Allow" verwenden, es gibt nu mal nur "Disallow", "Allow" is ne Erfindung (die Google zwar versteht, aber trotzdem isses ne Erfindung) die keiner braucht.

Beitrag von **evel** » 17.10.2011, 11:33

Hallo luzie,

aber dann bräuchte ich eine genaue Definition für die robots.txt, um alle Unterseiten ausschließen "Disallow" zu können - ähnlich RegEx

Gibt es da für die robots.txt eine derartige Definition, die ich anwenden kann?

Beitrag von **evel** » 17.10.2011, 12:02

hui ...
also, die Site ist in TYPO3 angelegt. Enthält internationale Domains weltweit und auch entsprechende Sprachversionen.
Die Länderdomains sind alle erreichbar, indexiert - und das ist so auch ok.

Die .com soll eine Eingangsseite werden, die als Weltkarte fungiert.
Also soll die .com in Suchmaschinen zu finden sein, jedoch keine Unterseiten, denn der User klickt sich von der Weltkarte zur entsprechenden Länder-Domain weiter.

Aktuell existieren jedoch noch viele, viele indexierte Unterseiten. Als Unterseiten ist alles mögliche erdenklich. D.h. saubere URLs bis hin zu URLs mit angehängten Parametern.
/fi/tuotteet/
/aktuelles.html
/internationaleng.html
/produktkonfiguratoranzeigeneng_us.html
/produktkonfigurator_anzeigen_se.html
/produkte/B-VE-200R.html
/internationaleng.html?L=
/presse-detail.html?pid=2
etc.

Vielleicht sollte ich das ganze nicht über die robots.txt lösen, sondern

- entweder über die Unterseiten unerreichbar machen; HTTP-Statuscode 404 (nicht gefunden) oder 410 (gelöscht)
- oder per implementierten von <meta name="robots" content="noindex">

?
?
Meine Idee war, dass ich über das WMT + robots.txt versuchen kann die Seiten etwas schneller aus dem Index rauszukriegen.

Beitrag von **evel** » 17.10.2011, 13:10

von luzie kommen leider keine Lösungsvorschläge ...
jedoch finde ich seine Überlegung nicht ganz falsch, denn bei den Suchmaschinen ist es ja eigentlich immer so, dass man ihnen sagt "indexiere nicht".
Will man, dass etwas indexiert wird, braucht man eigentlich nix tun - "indexiere" braucht man denen eigentlich nicht sagen.
Deswegen kann es schon sein, dass "Allow" so gesehen nur eine Erfindung ist.

Neue Idee:
Ich sorge dafür, dass die gesamte .com Domain erstmal aus dem Index verschwindet - dann kümmere ich mich darum, dass die .com Startseite wieder indexiert wird.
Frage: wie lange könnte das dauern? - bestimmt mind. 2-3 Monate, oder?

Beitrag von **luzie** » 17.10.2011, 13:16

Ich möchte in der robots.txt alle Unterseiten einer Domain von einer möglichen Indexierung ausschließen.

Ach so, die Lösung ...

Ich würde das so machen:

auf der Website:

index.html
/inhalte/(alle inhalte)

und in der robots.txt:

User agent: *
Disallow: /inhalte/

Beitrag von **evel** » 17.10.2011, 13:57

stimmt - wäre auch ne Lösung

Klappt allerdings nicht, weil die Seite in TYPO3 so nicht konfiguriert ist.
Das würde die komplette Programmierung, sprich die Handhabung aller anderen Sprachen-Domains beeinträchtigen. Alias-Vergabe, etc.
Die Unterseiten lassen sich also leider nicht so einfach in ein neues Verzeichnis schieben.

Beitrag von **chris21** » 17.10.2011, 14:00

Anhand Deiner Beispiele folgende Robots.txt, die aber aufgrund der RegEx nur für Google sicher funktioniert.

Disallow:/*/$
Disallow:/*.html$
Disallow:/*?

Damit werden alle Unterverzeichnisse gesperrt, alle URLs, die auf .html enden sowie alle URLs, die Parameter beinhalten. Kann noch erweitert werden, falls noch was fehlt.

Google bietet Dir in den Webmastertools dann die Möglichkeit, Deine Konfigurationen zu testen. Nutze diese Möglichkeit

Ich gehe dabei davon aus, dass die Startseite ohne index.html/index.php etc. aufgerufen und verlinkt werden soll, also einfach Startseite = www.example.com/

Beitrag von **evel** » 19.10.2011, 12:06

Hallo,
vielen Dank für Eure Vorschläge - auch für Deinen chris 21, der wie ich denke auch eine gute Lösung wäre.

Aufgrund der Konfiguration von TYPO3 in diesem Fall, gäbe es allerdings zu viele Schwierigkeiten die robots.txt zielgerichtet auszuspielen.
Ich glaub ich mach das jetzt doch einfach über die <meta name="robots" content="noindex"> und muss mich halt gedulden.

LG, evel