Seite 1 von 1
robots.txt :: alles außer Startseite ausschließen
Verfasst: 14.10.2011, 16:03
von evel
Hallo,
hab mich schon versucht schlau zu machen, hab aber noch keine rechte Lösung gefunden. Vielleicht kann mir hier jemand nen guten Tipp geben

.
Ich möchte in der robots.txt
alle Unterseiten einer Domain von einer möglichen Indexierung ausschließen.
Einzig und allein die Startseite soll indexierbar sein.
Wie kann ich das in der robots.txt am elegantesten angeben?
Ich habe Antworten dazu gefunden, wie ich bestimmte Seiten oder Verzeichnisse von der Indexierung ausschließen kann. Nicht aber, wie ich alles außer der Startseite ausschließen kann.
Ich freue mich auf Ideen und Lösungen von Euch.
Gruß evel
Verfasst:
von
Content Erstellung von
ABAKUS Internet Marketing
Ihre Vorteile:
- einzigartige Texte
- suchmaschinenoptimierte Inhalte
- eine sinnvolle Content-Strategie
- Beratung und Umsetzung
Jetzt anfragen:
0511 / 300325-0
Verfasst: 15.10.2011, 10:37
von johnny44
Ich würde alle Unterseiten sperren
Code: Alles auswählen
User-agent: *
Disallow: /a
Disallow: /b
...
Disallow: /y
Disallow: /z
Verfasst: 17.10.2011, 09:10
von luzie
KEIN "Allow" ("allow" ist im Robots Exclusion Standard NICHT vorgesehen), die Folge davon sieht man schon hier:
User-agent: *
Disallow: /
Allow: /startseite.html
Was denn nun? Ja oder ja oder nein oder was??
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 17.10.2011, 09:24
von evel
vielen Dank für Eure Lösungsvorschläge.
@johnny44
es gibt leider Websites, bei deren Größe diese Lösung nicht möglich ist
@KAW
Ich meinte mit Startseite, dass die example.de indexiert werden darf.
Könnte das dann so aussehen?
User-agent: *
Disallow: /*?*
Allow:
www.example.de
Brauche ich dann das Allow überhaubt noch?
Gruß, evel
Verfasst: 17.10.2011, 09:47
von evel
ja genau - alles muss raus

klingt komisch, ist aber so
verstehe ich das richtig?
/*?* steht dann also für
alles, was nach dem / kommt?
und die /index.html kann ich dann ja per 301 auf die example.com weiterleiten, oder?
Verfasst: 17.10.2011, 10:02
von evel
ah ok, hab's verstanden.
Vielen, vielen Dank für Deine Mühe KAW.
Ich werd's ausprobieren - viel kaputt machen kann ich in dem Fall ja nicht.
Gruß, evel
Verfasst: 17.10.2011, 10:14
von evel
Gern, wird aber wahrscheinlich n bisschen dauern - unsere Suchmaschinen sind bei solchen Angelegenheiten ja eher etwas langsamer.

Verfasst: 17.10.2011, 11:04
von luzie
GRR! Du sollst kein "Allow" verwenden, es gibt nu mal nur "Disallow", "Allow" is ne Erfindung (die Google zwar versteht, aber trotzdem isses ne Erfindung) die keiner braucht.

Verfasst: 17.10.2011, 11:33
von evel
Hallo luzie,
aber dann bräuchte ich eine genaue Definition für die robots.txt, um alle Unterseiten ausschließen "Disallow" zu können - ähnlich RegEx
Gibt es da für die robots.txt eine derartige Definition, die ich anwenden kann?
Verfasst: 17.10.2011, 12:02
von evel
hui ...
also, die Site ist in TYPO3 angelegt. Enthält internationale Domains weltweit und auch entsprechende Sprachversionen.
Die Länderdomains sind alle erreichbar, indexiert - und das ist so auch ok.
Die .com soll eine Eingangsseite werden, die als Weltkarte fungiert.
Also soll die .com in Suchmaschinen zu finden sein, jedoch keine Unterseiten, denn der User klickt sich von der Weltkarte zur entsprechenden Länder-Domain weiter.
Aktuell existieren jedoch noch viele, viele indexierte Unterseiten. Als Unterseiten ist alles mögliche erdenklich. D.h. saubere URLs bis hin zu URLs mit angehängten Parametern.
/fi/tuotteet/
/aktuelles.html
/internationaleng.html
/produktkonfiguratoranzeigeneng_us.html
/produktkonfigurator_anzeigen_se.html
/produkte/B-VE-200R.html
/internationaleng.html?L=
/presse-detail.html?pid=2
etc.
Vielleicht sollte ich das ganze nicht über die robots.txt lösen, sondern
- - entweder über die Unterseiten unerreichbar machen; HTTP-Statuscode 404 (nicht gefunden) oder 410 (gelöscht)
- oder per implementierten von <meta name="robots" content="noindex">
?
?
Meine Idee war, dass ich über das WMT + robots.txt versuchen kann die Seiten etwas schneller aus dem Index rauszukriegen.
Verfasst: 17.10.2011, 13:10
von evel
von luzie kommen leider keine Lösungsvorschläge ...
jedoch finde ich seine Überlegung nicht ganz falsch, denn bei den Suchmaschinen ist es ja eigentlich immer so, dass man ihnen sagt "indexiere nicht".
Will man, dass etwas indexiert wird, braucht man eigentlich nix tun - "indexiere" braucht man denen eigentlich nicht sagen.
Deswegen kann es schon sein, dass "Allow" so gesehen nur eine Erfindung ist.
Neue Idee:
Ich sorge dafür, dass die gesamte .com Domain erstmal aus dem Index verschwindet - dann kümmere ich mich darum, dass die .com Startseite wieder indexiert wird.
Frage: wie lange könnte das dauern? - bestimmt mind. 2-3 Monate, oder?
Verfasst: 17.10.2011, 13:16
von luzie
Ich möchte in der robots.txt alle Unterseiten einer Domain von einer möglichen Indexierung ausschließen.
Ach so, die Lösung ...
Ich würde das so machen:
auf der Website:
index.html
/inhalte/(alle inhalte)
und in der robots.txt:
User agent: *
Disallow: /inhalte/
Verfasst: 17.10.2011, 13:57
von evel
stimmt - wäre auch ne Lösung
Klappt allerdings nicht, weil die Seite in TYPO3 so nicht konfiguriert ist.
Das würde die komplette Programmierung, sprich die Handhabung aller anderen Sprachen-Domains beeinträchtigen. Alias-Vergabe, etc.
Die Unterseiten lassen sich also leider nicht so einfach in ein neues Verzeichnis schieben.
Verfasst: 17.10.2011, 14:00
von chris21
Anhand Deiner Beispiele folgende Robots.txt, die aber aufgrund der RegEx nur für Google sicher funktioniert.
Disallow:/*/$
Disallow:/*.html$
Disallow:/*?
Damit werden alle Unterverzeichnisse gesperrt, alle URLs, die auf .html enden sowie alle URLs, die Parameter beinhalten. Kann noch erweitert werden, falls noch was fehlt.
Google bietet Dir in den Webmastertools dann die Möglichkeit, Deine Konfigurationen zu testen. Nutze diese Möglichkeit
Ich gehe dabei davon aus, dass die Startseite ohne index.html/index.php etc. aufgerufen und verlinkt werden soll, also einfach Startseite =
www.example.com/
Verfasst: 19.10.2011, 12:06
von evel
Hallo,
vielen Dank für Eure Vorschläge - auch für Deinen chris 21, der wie ich denke auch eine gute Lösung wäre.
Aufgrund der Konfiguration von TYPO3 in diesem Fall, gäbe es allerdings zu viele Schwierigkeiten die robots.txt zielgerichtet auszuspielen.
Ich glaub ich mach das jetzt doch einfach über die <meta name="robots" content="noindex"> und muss mich halt gedulden.
LG, evel