Seite 1 von 1

robots.txt Frage

Verfasst: 25.06.2011, 08:41
von Stefan26
Ist es möglich mittels Disallow: /download/ prinzipiell den Zugriff auf das Verzeichnis für seriöse Spider zu sperren, jedoch gleichzeitig Googlebot den Zugriff auf spezielle im Verzeichnis liegende URLs mittels Allow: /download/file.php?avatar=* zu gestatten? Danke!

Verfasst:
von

Verfasst: 25.06.2011, 09:01
von Malte Landwehr
Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent: *
Disallow: /download/
Allow: /

User-agent: Googlebot
Allow: /download/erlaubtedatei
Disallow: /download/
Allow: /

Verfasst: 25.06.2011, 09:43
von Stefan26
Malte Landwehr hat geschrieben:Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent: *
Disallow: /download/
Allow: /

User-agent: Googlebot
Allow: /download/erlaubtedatei
Disallow: /download/
Allow: /
"Nach einem Block, dessen erste Zeile mit User-agent: * beginnt, stoppt ein Webcrawler und liest den Rest der Datei nicht mehr. Also sollten in der Datei zuerst die Blöcke für spezielle Webcrawler stehen und als letztes der Block für alle."
https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

Also müsste ich mit den Anweisungen für den User-agent: Googlebot beginnen, dann passt's.

Verfasst: 25.06.2011, 10:16
von Abraxas
Malte Landwehr hat geschrieben:Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent: *
Disallow: /download/
Allow: /

User-agent: Googlebot
Allow: /download/erlaubtedatei
Disallow: /download/
Allow: /
Kleine Korrektur:

Code: Alles auswählen

User-agent: *
Allow: /
Disallow: /download/

User-agent: Googlebot
Allow: /
Disallow: /download/
Allow: /download/erlaubtedatei
Jetzt sollte es funktionieren.

Nebenbei gesagt:

Code: Alles auswählen

User-agent: *
erzeugt keinen Stop für den Rest der Datei.

Verfasst: 25.06.2011, 10:25
von Stefan26
Abraxas hat geschrieben: Nebenbei gesagt:

Code: Alles auswählen

User-agent: *
erzeugt keinen Stop für den Rest der Datei.
Man sollte wohl nicht alles glauben, was auf Wikipedia steht. :wink: Danke euch beiden!

Verfasst: 25.06.2011, 11:15
von Malte Landwehr
Mein Vorschlag (siehe oben) ist die robots.txt wie Google sie für exakt diesen Fall vorschlägt. (via Google Webmaster Tools erzeugt.)

Verfasst: 25.06.2011, 11:55
von Abraxas
Malte Landwehr hat geschrieben:Mein Vorschlag (siehe oben) ist die robots.txt wie Google sie für exakt diesen Fall vorschlägt. (via Google Webmaster Tools erzeugt.)
Schon mal daran gedacht, dass es für Google nur die "Google Welt" gibt? Den Code den ich vorgeschlagen habe funktioniert nicht nur für Google sondern auch für den Rest der IT Welt.

Davon abgesehen, in diesem Code

Code: Alles auswählen

Disallow: /download/
Allow: / 
hebt die zweite Zeile die Anweisung in der ersten Zeile auf, daher ist die Anweisung in der ersten Zeile unwirksam :o

Verfasst: 25.06.2011, 12:37
von Stefan26
"While by standard implementation the first matching robots.txt pattern always wins, Google's implementation differs in that Allow patterns with equal or more characters in the directive path win over a matching Disallow pattern. Bing uses the Allow or Disallow directive which is the most specific.
In order to be compatible to all robots, if one wants to allow single files inside an otherwise disallowed directory, it is necessary to place the Allow directive(s) first, followed by the Disallow"
https://en.wikipedia.org/wiki/Robots_exclusion_standard

Hab's schon, Danke!

Verfasst: 26.06.2011, 11:37
von OliSEO
Hallo zusammen,

das hat mich jetzt etwas verunsichert. Hatte mir Tipps für den Input für die robot.txt auch hier im Forum geholt und dachte mit

User-agent: *

User-agent: nicht seriöse Spider (Liste und Bspl. hier aus dem Forum)
Disallow: /

.............

schließe ich die nicht seriösen aus, lasse aber die anderen inkl. Google und inkl. Downloads von Dateien zu. So, wie Ihr das hier postet, aber eher nicht, oder?

Danke schon mal für Euer Feedback :)

Verfasst: 27.06.2011, 22:01
von OliSEO
Gibt es jemanden von Euch, der mir auf meinen Post Klarheit verschaffen kann? :)

Verfasst: 28.06.2011, 00:06
von mgutt
Nicht seriöse Spider lesen keine robots.txt. Sonst wären sie ja seriös ;)

Verfasst: 28.06.2011, 00:34
von OliSEO
... heißt jetzt was? Kann ich die robot.txt so lassen oder wie hier vorgeschlagen adaptieren, oder wie oder was .. oder ganz knicken? Frage hatte ich so ähnlich schon vor einiger Zeit gestellt, und keine vernünftige Antwort bekommen ... Ihr robot.txt-Experten 8)

Verfasst: 28.06.2011, 07:18
von Stefan26
Wie schon erwähnt: "Unseriöse" Spider ignorieren die robots.txt oder nutzen die Angaben genau so wie sie es nicht sollten. Das heißt: Sie entdecken z.B. durch ein Disallow: /private/ erst dieses Verzeichnis und spidern - wenn möglich - was das Zeug hält.

Solchen Bots muss du z.B. via .htaccess den Zugriff verweigern. Teilweise geht das über die Erkennung des User-Agents, manchmal ist das Sperren von IP-Ranges usw. erforderlich.
User-agent: nicht seriöser Spider (Liste und Bspl. hier aus dem Forum)
Disallow: /
Für unerwünschte Spider, welche sich aber an die robots.txt halten, reicht das.
User-agent: *
bzw. genauer gesagt
User-agent: *
Allow: /
Ist relativ unnötig, da Spider keine Erlaubnis brauchen um ihren Job zu machen. Der Briefträger kriegt ja auch nicht jeden Tag gesagt: "Erlaubnis zum Briefe austragen erteilt". ;)

Verfasst: 28.06.2011, 09:16
von OliSEO
@stefan26: besten Dank für die Info :)