robots.txt Frage

Beitrag von **Stefan26** » 25.06.2011, 08:41

Ist es möglich mittels Disallow: /download/ prinzipiell den Zugriff auf das Verzeichnis für seriöse Spider zu sperren, jedoch gleichzeitig Googlebot den Zugriff auf spezielle im Verzeichnis liegende URLs mittels Allow: /download/file.php?avatar=* zu gestatten? Danke!

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **Malte Landwehr** » 25.06.2011, 09:01

Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /download/
Allow&#58; /

User-agent&#58; Googlebot
Allow&#58; /download/erlaubtedatei
Disallow&#58; /download/
Allow&#58; /

Beitrag von **Stefan26** » 25.06.2011, 09:43

Malte Landwehr hat geschrieben:Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /download/
Allow&#58; /

User-agent&#58; Googlebot
Allow&#58; /download/erlaubtedatei
Disallow&#58; /download/
Allow&#58; /

"Nach einem Block, dessen erste Zeile mit User-agent: * beginnt, stoppt ein Webcrawler und liest den Rest der Datei nicht mehr. Also sollten in der Datei zuerst die Blöcke für spezielle Webcrawler stehen und als letztes der Block für alle."

https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

Also müsste ich mit den Anweisungen für den User-agent: Googlebot beginnen, dann passt's.

Beitrag von **Abraxas** » 25.06.2011, 10:16

Malte Landwehr hat geschrieben:Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /download/
Allow&#58; /

User-agent&#58; Googlebot
Allow&#58; /download/erlaubtedatei
Disallow&#58; /download/
Allow&#58; /

Kleine Korrektur:

Code: Alles auswählen

User-agent&#58; *
Allow&#58; /
Disallow&#58; /download/

User-agent&#58; Googlebot
Allow&#58; /
Disallow&#58; /download/
Allow&#58; /download/erlaubtedatei

Jetzt sollte es funktionieren.

Nebenbei gesagt:

Code: Alles auswählen

User-agent&#58; *

erzeugt keinen Stop für den Rest der Datei.

Beitrag von **Stefan26** » 25.06.2011, 10:25

Abraxas hat geschrieben: Nebenbei gesagt:
Code: Alles auswählen
User-agent&#58; *
erzeugt keinen Stop für den Rest der Datei.

Man sollte wohl nicht alles glauben, was auf Wikipedia steht.

Danke euch beiden!

Beitrag von **Malte Landwehr** » 25.06.2011, 11:15

Mein Vorschlag (siehe oben) ist die robots.txt wie Google sie für exakt diesen Fall vorschlägt. (via Google Webmaster Tools erzeugt.)

Beitrag von **Abraxas** » 25.06.2011, 11:55

Malte Landwehr hat geschrieben:Mein Vorschlag (siehe oben) ist die robots.txt wie Google sie für exakt diesen Fall vorschlägt. (via Google Webmaster Tools erzeugt.)

Schon mal daran gedacht, dass es für Google nur die "Google Welt" gibt? Den Code den ich vorgeschlagen habe funktioniert nicht nur für Google sondern auch für den Rest der IT Welt.

Davon abgesehen, in diesem Code

Code: Alles auswählen

Disallow&#58; /download/
Allow&#58; /

hebt die zweite Zeile die Anweisung in der ersten Zeile auf, daher ist die Anweisung in der ersten Zeile unwirksam

Beitrag von **Stefan26** » 25.06.2011, 12:37

"While by standard implementation the first matching robots.txt pattern always wins, Google's implementation differs in that Allow patterns with equal or more characters in the directive path win over a matching Disallow pattern. Bing uses the Allow or Disallow directive which is the most specific.
In order to be compatible to all robots, if one wants to allow single files inside an otherwise disallowed directory, it is necessary to place the Allow directive(s) first, followed by the Disallow"

https://en.wikipedia.org/wiki/Robots_exclusion_standard

Hab's schon, Danke!

Beitrag von **OliSEO** » 26.06.2011, 11:37

Hallo zusammen,

das hat mich jetzt etwas verunsichert. Hatte mir Tipps für den Input für die robot.txt auch hier im Forum geholt und dachte mit

User-agent: *

User-agent: nicht seriöse Spider (Liste und Bspl. hier aus dem Forum)
Disallow: /

.............

schließe ich die nicht seriösen aus, lasse aber die anderen inkl. Google und inkl. Downloads von Dateien zu. So, wie Ihr das hier postet, aber eher nicht, oder?

Danke schon mal für Euer Feedback

Beitrag von **OliSEO** » 27.06.2011, 22:01

Gibt es jemanden von Euch, der mir auf meinen Post Klarheit verschaffen kann?

Beitrag von **mgutt** » 28.06.2011, 00:06

Nicht seriöse Spider lesen keine robots.txt. Sonst wären sie ja seriös

Beitrag von **OliSEO** » 28.06.2011, 00:34

... heißt jetzt was? Kann ich die robot.txt so lassen oder wie hier vorgeschlagen adaptieren, oder wie oder was .. oder ganz knicken? Frage hatte ich so ähnlich schon vor einiger Zeit gestellt, und keine vernünftige Antwort bekommen ... Ihr robot.txt-Experten

Beitrag von **Stefan26** » 28.06.2011, 07:18

Wie schon erwähnt: "Unseriöse" Spider ignorieren die robots.txt oder nutzen die Angaben genau so wie sie es nicht sollten. Das heißt: Sie entdecken z.B. durch ein Disallow: /private/ erst dieses Verzeichnis und spidern - wenn möglich - was das Zeug hält.

Solchen Bots muss du z.B. via .htaccess den Zugriff verweigern. Teilweise geht das über die Erkennung des User-Agents, manchmal ist das Sperren von IP-Ranges usw. erforderlich.

User-agent: nicht seriöser Spider (Liste und Bspl. hier aus dem Forum)
Disallow: /

Für unerwünschte Spider, welche sich aber an die robots.txt halten, reicht das.

User-agent: *

bzw. genauer gesagt

User-agent: *
Allow: /

Ist relativ unnötig, da Spider keine Erlaubnis brauchen um ihren Job zu machen. Der Briefträger kriegt ja auch nicht jeden Tag gesagt: "Erlaubnis zum Briefe austragen erteilt".

Beitrag von **OliSEO** » 28.06.2011, 09:16

@stefan26: besten Dank für die Info