Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

gibt es auch allow für die robots.txt Anweisung?

Ajax, Hijax, Microformats, RDF, Markup, HTML, PHP, CSS, MySQL, htaccess, robots.txt, CGI, Java, Javascript usw.
Neues Thema Antworten
Thomas B
PostRank 9
PostRank 9
Beiträge: 1810
Registriert: 04.12.2005, 12:50

Beitrag von Thomas B » 11.03.2010, 00:09

Ich habe einmal eine bescheidene Frage.

Den Boot kann man ja mehr oder weniger mit einem "disallow" in der robots.txt aussperren.

Kann man das eigentlich auch so machen:

User-agent: *
Disallow: /
Allow: example.html

So dass erlaubt wird, die explizit ausgewiesene Seite zu spidern?

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Alda
PostRank 10
PostRank 10
Beiträge: 4584
Registriert: 27.01.2009, 20:19
Wohnort: Kaiserslautern

Beitrag von Alda » 11.03.2010, 00:29

Aua, ich geh da mal mit fundiertem Nichtwissen dran...

Alles was Du mit "Disallow" explizit ausschließt ist weg, da geht er nicht mehr ran.und wenn Du zuerst das Hauptverzeichnis komplett ausschließt wird (blanke Vermutung) der Rest nicht mehr abgearbeitet, weil es danach nichts mehr abzuarbeiten gibt.

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 11.03.2010, 00:30

Njet!

Das geht nicht. Zwar akzeptiert Google "allow", aber nur global, so:

Allow : /

Was du in robots.txt auf "disallow" setzt, bleibt verboten, ein globales "disallow" ("disallow" ist die einzig wirklich vorgesehene Anweisung - Robots Exclusion Standard) kannst du nicht durch ein spezifisches "allow" wieder aufheben.
Bilduzie - [url=httpss://plus.google.com/+HerbertSulzer/about]Google Official Bionic Top Contributor on Google Webmaster Central[/url]

chris3
PostRank 6
PostRank 6
Beiträge: 434
Registriert: 06.06.2008, 11:26

Beitrag von chris3 » 11.03.2010, 00:32

Thomas B hat geschrieben: User-agent: *
google soll sich wohl nur daran halten, wenn man
"User-agent: Googlebot"
schreibt. es ist wohl schonmal öfters beobachtet worden, daß sich google nicht immer daran hält, wenn nur "User-agent: *" benutzt wird.

Thomas B
PostRank 9
PostRank 9
Beiträge: 1810
Registriert: 04.12.2005, 12:50

Beitrag von Thomas B » 11.03.2010, 00:34

Danke für die Infos.

Mork vom Ork
PostRank 9
PostRank 9
Beiträge: 2557
Registriert: 08.07.2008, 11:07
Wohnort: Aufm Friedhof.

Beitrag von Mork vom Ork » 11.03.2010, 09:09

Thomas B hat geschrieben:Kann man das eigentlich auch so machen:

User-agent: *
Disallow: /
Allow: example.html

So dass erlaubt wird, die explizit ausgewiesene Seite zu spidern?
Das funktioniert aus zwei Gründen nicht:
1. URL-Pfade beginnen immer mit einem Schrägstrich, deine Angabe example.html wird dementsprechend nie zutreffen.
2. Die robots.txt wird standardmäßig von oben nach unten abgearbeitet, der erste Treffer wirkt. Dein Disallow: / passt auf alles, nachfolgende Allow:- und Disallow:-Zeilen werden nicht mehr beachtet.

Was du unterm Strich haben möchtest, ist dieses:

User-agent: *
Allow: /example.html
Disallow: /

Damit wird /example.com ausgelesen und alles andere gesperrt.

Zu Punkt 2 ist allerdings anzumerken, dass Google sich nicht an die althergebrachte Methode hält, sondern stattdessen zuerst alle Allow:-Zeilen auswertet, anschließend alle Disallow:-Zeilen. Mit deiner Reihenfolge würde es bei Google also doch so laufen, wie du möchtest; nichtsdestotrotz solltest du dich an den Standard halten.

Die Behauptung, Google würde Allow: nur mit / gelten lassen, ist übrigens falsch (und macht auch keinen Sinn). Nicht nur ich habe die Kombination Allow abc, Disallow abcde im Einsatz – abc ist im Index, abcde nicht, wie gewünscht –, sondern auch noch andere.
Gleiches gilt für die Aussage, „google soll sich wohl nur daran halten, wenn man "User-agent: Googlebot"“ nutzt. Ist auch nicht richtig.
Zuletzt geändert von Mork vom Ork am 11.03.2010, 09:18, insgesamt 1-mal geändert.

Anonymous

Beitrag von Anonymous » 11.03.2010, 11:40

jo,

das mit dem Allow, zur freischaltung eines Teilbereiches eines vorherigen Disallow kann funktionieren, muss aber nicht, da es nicht zum allgemeinen Standard der robots.txt gehört... aber das trifft ja auf die wildcards wie * auch zu

Mork vom Ork
PostRank 9
PostRank 9
Beiträge: 2557
Registriert: 08.07.2008, 11:07
Wohnort: Aufm Friedhof.

Beitrag von Mork vom Ork » 11.03.2010, 17:23

net(t)worker hat geschrieben:das mit dem Allow, zur freischaltung eines Teilbereiches eines vorherigen Disallow kann funktionieren
Nein, bitte andersrum, erst mit Allow freigeben, dann mit Disallow sperren. Diese Richtung schon immer Regel.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag