Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt :: alles außer Startseite ausschließen

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 14.10.2011, 16:03

Hallo,
hab mich schon versucht schlau zu machen, hab aber noch keine rechte Lösung gefunden. Vielleicht kann mir hier jemand nen guten Tipp geben :-).

Ich möchte in der robots.txt alle Unterseiten einer Domain von einer möglichen Indexierung ausschließen.
Einzig und allein die Startseite soll indexierbar sein.

Wie kann ich das in der robots.txt am elegantesten angeben?
Ich habe Antworten dazu gefunden, wie ich bestimmte Seiten oder Verzeichnisse von der Indexierung ausschließen kann. Nicht aber, wie ich alles außer der Startseite ausschließen kann.

Ich freue mich auf Ideen und Lösungen von Euch.
Gruß evel

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

johnny44
PostRank 3
PostRank 3
Beiträge: 97
Registriert: 12.12.2009, 12:35

Beitrag von johnny44 » 15.10.2011, 10:37

Ich würde alle Unterseiten sperren

Code: Alles auswählen

User-agent: *
Disallow: /a
Disallow: /b
...
Disallow: /y
Disallow: /z

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 17.10.2011, 09:10

KEIN "Allow" ("allow" ist im Robots Exclusion Standard NICHT vorgesehen), die Folge davon sieht man schon hier:

User-agent: *
Disallow: /
Allow: /startseite.html

Was denn nun? Ja oder ja oder nein oder was??
Bilduzie - [url=httpss://plus.google.com/+HerbertSulzer/about]Google Official Bionic Top Contributor on Google Webmaster Central[/url]

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 09:24

vielen Dank für Eure Lösungsvorschläge.

@johnny44
es gibt leider Websites, bei deren Größe diese Lösung nicht möglich ist

@KAW
Ich meinte mit Startseite, dass die example.de indexiert werden darf.
Könnte das dann so aussehen?

User-agent: *
Disallow: /*?*
Allow: www.example.de

Brauche ich dann das Allow überhaubt noch?

Gruß, evel

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 09:47

ja genau - alles muss raus :-)
klingt komisch, ist aber so :-)

verstehe ich das richtig?
/*?* steht dann also für alles, was nach dem / kommt?

und die /index.html kann ich dann ja per 301 auf die example.com weiterleiten, oder?

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 10:02

ah ok, hab's verstanden.
Vielen, vielen Dank für Deine Mühe KAW.

Ich werd's ausprobieren - viel kaputt machen kann ich in dem Fall ja nicht.

Gruß, evel

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 10:14

Gern, wird aber wahrscheinlich n bisschen dauern - unsere Suchmaschinen sind bei solchen Angelegenheiten ja eher etwas langsamer.
:)

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 17.10.2011, 11:04

GRR! Du sollst kein "Allow" verwenden, es gibt nu mal nur "Disallow", "Allow" is ne Erfindung (die Google zwar versteht, aber trotzdem isses ne Erfindung) die keiner braucht. :roll:
Bilduzie - [url=httpss://plus.google.com/+HerbertSulzer/about]Google Official Bionic Top Contributor on Google Webmaster Central[/url]

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 11:33

Hallo luzie,

aber dann bräuchte ich eine genaue Definition für die robots.txt, um alle Unterseiten ausschließen "Disallow" zu können - ähnlich RegEx

Gibt es da für die robots.txt eine derartige Definition, die ich anwenden kann?

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 12:02

hui ...
also, die Site ist in TYPO3 angelegt. Enthält internationale Domains weltweit und auch entsprechende Sprachversionen.
Die Länderdomains sind alle erreichbar, indexiert - und das ist so auch ok.

Die .com soll eine Eingangsseite werden, die als Weltkarte fungiert.
Also soll die .com in Suchmaschinen zu finden sein, jedoch keine Unterseiten, denn der User klickt sich von der Weltkarte zur entsprechenden Länder-Domain weiter.

Aktuell existieren jedoch noch viele, viele indexierte Unterseiten. Als Unterseiten ist alles mögliche erdenklich. D.h. saubere URLs bis hin zu URLs mit angehängten Parametern.
/fi/tuotteet/
/aktuelles.html
/internationaleng.html
/produktkonfiguratoranzeigeneng_us.html
/produktkonfigurator_anzeigen_se.html
/produkte/B-VE-200R.html
/internationaleng.html?L=
/presse-detail.html?pid=2
etc.

Vielleicht sollte ich das ganze nicht über die robots.txt lösen, sondern
  • - entweder über die Unterseiten unerreichbar machen; HTTP-Statuscode 404 (nicht gefunden) oder 410 (gelöscht)
    - oder per implementierten von <meta name="robots" content="noindex">
?
?
Meine Idee war, dass ich über das WMT + robots.txt versuchen kann die Seiten etwas schneller aus dem Index rauszukriegen.

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 13:10

von luzie kommen leider keine Lösungsvorschläge ...
jedoch finde ich seine Überlegung nicht ganz falsch, denn bei den Suchmaschinen ist es ja eigentlich immer so, dass man ihnen sagt "indexiere nicht".
Will man, dass etwas indexiert wird, braucht man eigentlich nix tun - "indexiere" braucht man denen eigentlich nicht sagen.
Deswegen kann es schon sein, dass "Allow" so gesehen nur eine Erfindung ist.

Neue Idee:
Ich sorge dafür, dass die gesamte .com Domain erstmal aus dem Index verschwindet - dann kümmere ich mich darum, dass die .com Startseite wieder indexiert wird.
Frage: wie lange könnte das dauern? - bestimmt mind. 2-3 Monate, oder?

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 17.10.2011, 13:16

Ich möchte in der robots.txt alle Unterseiten einer Domain von einer möglichen Indexierung ausschließen.
Ach so, die Lösung ...

Ich würde das so machen:

auf der Website:

index.html
/inhalte/(alle inhalte)

und in der robots.txt:

User agent: *
Disallow: /inhalte/
Bilduzie - [url=httpss://plus.google.com/+HerbertSulzer/about]Google Official Bionic Top Contributor on Google Webmaster Central[/url]

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 17.10.2011, 13:57

stimmt - wäre auch ne Lösung :lol:

Klappt allerdings nicht, weil die Seite in TYPO3 so nicht konfiguriert ist.
Das würde die komplette Programmierung, sprich die Handhabung aller anderen Sprachen-Domains beeinträchtigen. Alias-Vergabe, etc.
Die Unterseiten lassen sich also leider nicht so einfach in ein neues Verzeichnis schieben.

chris21
PostRank 9
PostRank 9
Beiträge: 2758
Registriert: 10.04.2005, 18:17

Beitrag von chris21 » 17.10.2011, 14:00

Anhand Deiner Beispiele folgende Robots.txt, die aber aufgrund der RegEx nur für Google sicher funktioniert.

Disallow:/*/$
Disallow:/*.html$
Disallow:/*?

Damit werden alle Unterverzeichnisse gesperrt, alle URLs, die auf .html enden sowie alle URLs, die Parameter beinhalten. Kann noch erweitert werden, falls noch was fehlt.

Google bietet Dir in den Webmastertools dann die Möglichkeit, Deine Konfigurationen zu testen. Nutze diese Möglichkeit ;-)

Ich gehe dabei davon aus, dass die Startseite ohne index.html/index.php etc. aufgerufen und verlinkt werden soll, also einfach Startseite = www.example.com/

evel
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 11.11.2009, 12:18

Beitrag von evel » 19.10.2011, 12:06

Hallo,
vielen Dank für Eure Vorschläge - auch für Deinen chris 21, der wie ich denke auch eine gute Lösung wäre.

Aufgrund der Konfiguration von TYPO3 in diesem Fall, gäbe es allerdings zu viele Schwierigkeiten die robots.txt zielgerichtet auszuspielen.
Ich glaub ich mach das jetzt doch einfach über die <meta name="robots" content="noindex"> und muss mich halt gedulden.

LG, evel

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag