Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt Frage

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Stefan26
PostRank 4
PostRank 4
Beiträge: 104
Registriert: 02.05.2010, 23:41

Beitrag von Stefan26 » 25.06.2011, 08:41

Ist es möglich mittels Disallow: /download/ prinzipiell den Zugriff auf das Verzeichnis für seriöse Spider zu sperren, jedoch gleichzeitig Googlebot den Zugriff auf spezielle im Verzeichnis liegende URLs mittels Allow: /download/file.php?avatar=* zu gestatten? Danke!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Malte Landwehr
PostRank 10
PostRank 10
Beiträge: 3474
Registriert: 22.05.2005, 10:45

Beitrag von Malte Landwehr » 25.06.2011, 09:01

Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent: *
Disallow: /download/
Allow: /

User-agent: Googlebot
Allow: /download/erlaubtedatei
Disallow: /download/
Allow: /
Die 45 wichtigsten SEO-Tools und wie ich sie nutze.

Stefan26
PostRank 4
PostRank 4
Beiträge: 104
Registriert: 02.05.2010, 23:41

Beitrag von Stefan26 » 25.06.2011, 09:43

Malte Landwehr hat geschrieben:Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent: *
Disallow: /download/
Allow: /

User-agent: Googlebot
Allow: /download/erlaubtedatei
Disallow: /download/
Allow: /
"Nach einem Block, dessen erste Zeile mit User-agent: * beginnt, stoppt ein Webcrawler und liest den Rest der Datei nicht mehr. Also sollten in der Datei zuerst die Blöcke für spezielle Webcrawler stehen und als letztes der Block für alle."
https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

Also müsste ich mit den Anweisungen für den User-agent: Googlebot beginnen, dann passt's.

Abraxas
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.06.2011, 09:20

Beitrag von Abraxas » 25.06.2011, 10:16

Malte Landwehr hat geschrieben:Ja, das ist möglich und deine Frage ist auch schon die Antwort.

edit:

Code: Alles auswählen

User-agent: *
Disallow: /download/
Allow: /

User-agent: Googlebot
Allow: /download/erlaubtedatei
Disallow: /download/
Allow: /
Kleine Korrektur:

Code: Alles auswählen

User-agent: *
Allow: /
Disallow: /download/

User-agent: Googlebot
Allow: /
Disallow: /download/
Allow: /download/erlaubtedatei
Jetzt sollte es funktionieren.

Nebenbei gesagt:

Code: Alles auswählen

User-agent: *
erzeugt keinen Stop für den Rest der Datei.

Stefan26
PostRank 4
PostRank 4
Beiträge: 104
Registriert: 02.05.2010, 23:41

Beitrag von Stefan26 » 25.06.2011, 10:25

Abraxas hat geschrieben: Nebenbei gesagt:

Code: Alles auswählen

User-agent: *
erzeugt keinen Stop für den Rest der Datei.
Man sollte wohl nicht alles glauben, was auf Wikipedia steht. :wink: Danke euch beiden!

Malte Landwehr
PostRank 10
PostRank 10
Beiträge: 3474
Registriert: 22.05.2005, 10:45

Beitrag von Malte Landwehr » 25.06.2011, 11:15

Mein Vorschlag (siehe oben) ist die robots.txt wie Google sie für exakt diesen Fall vorschlägt. (via Google Webmaster Tools erzeugt.)
Die 45 wichtigsten SEO-Tools und wie ich sie nutze.

Abraxas
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.06.2011, 09:20

Beitrag von Abraxas » 25.06.2011, 11:55

Malte Landwehr hat geschrieben:Mein Vorschlag (siehe oben) ist die robots.txt wie Google sie für exakt diesen Fall vorschlägt. (via Google Webmaster Tools erzeugt.)
Schon mal daran gedacht, dass es für Google nur die "Google Welt" gibt? Den Code den ich vorgeschlagen habe funktioniert nicht nur für Google sondern auch für den Rest der IT Welt.

Davon abgesehen, in diesem Code

Code: Alles auswählen

Disallow: /download/
Allow: / 
hebt die zweite Zeile die Anweisung in der ersten Zeile auf, daher ist die Anweisung in der ersten Zeile unwirksam :o

Stefan26
PostRank 4
PostRank 4
Beiträge: 104
Registriert: 02.05.2010, 23:41

Beitrag von Stefan26 » 25.06.2011, 12:37

"While by standard implementation the first matching robots.txt pattern always wins, Google's implementation differs in that Allow patterns with equal or more characters in the directive path win over a matching Disallow pattern. Bing uses the Allow or Disallow directive which is the most specific.
In order to be compatible to all robots, if one wants to allow single files inside an otherwise disallowed directory, it is necessary to place the Allow directive(s) first, followed by the Disallow"
https://en.wikipedia.org/wiki/Robots_exclusion_standard

Hab's schon, Danke!

OliSEO
PostRank 3
PostRank 3
Beiträge: 97
Registriert: 24.11.2010, 17:06
Wohnort: im Vulkan

Beitrag von OliSEO » 26.06.2011, 11:37

Hallo zusammen,

das hat mich jetzt etwas verunsichert. Hatte mir Tipps für den Input für die robot.txt auch hier im Forum geholt und dachte mit

User-agent: *

User-agent: nicht seriöse Spider (Liste und Bspl. hier aus dem Forum)
Disallow: /

.............

schließe ich die nicht seriösen aus, lasse aber die anderen inkl. Google und inkl. Downloads von Dateien zu. So, wie Ihr das hier postet, aber eher nicht, oder?

Danke schon mal für Euer Feedback :)

OliSEO
PostRank 3
PostRank 3
Beiträge: 97
Registriert: 24.11.2010, 17:06
Wohnort: im Vulkan

Beitrag von OliSEO » 27.06.2011, 22:01

Gibt es jemanden von Euch, der mir auf meinen Post Klarheit verschaffen kann? :)

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 28.06.2011, 00:06

Nicht seriöse Spider lesen keine robots.txt. Sonst wären sie ja seriös ;)
Ich kaufe Dein Forum!
Kontaktdaten

OliSEO
PostRank 3
PostRank 3
Beiträge: 97
Registriert: 24.11.2010, 17:06
Wohnort: im Vulkan

Beitrag von OliSEO » 28.06.2011, 00:34

... heißt jetzt was? Kann ich die robot.txt so lassen oder wie hier vorgeschlagen adaptieren, oder wie oder was .. oder ganz knicken? Frage hatte ich so ähnlich schon vor einiger Zeit gestellt, und keine vernünftige Antwort bekommen ... Ihr robot.txt-Experten 8)

Stefan26
PostRank 4
PostRank 4
Beiträge: 104
Registriert: 02.05.2010, 23:41

Beitrag von Stefan26 » 28.06.2011, 07:18

Wie schon erwähnt: "Unseriöse" Spider ignorieren die robots.txt oder nutzen die Angaben genau so wie sie es nicht sollten. Das heißt: Sie entdecken z.B. durch ein Disallow: /private/ erst dieses Verzeichnis und spidern - wenn möglich - was das Zeug hält.

Solchen Bots muss du z.B. via .htaccess den Zugriff verweigern. Teilweise geht das über die Erkennung des User-Agents, manchmal ist das Sperren von IP-Ranges usw. erforderlich.
User-agent: nicht seriöser Spider (Liste und Bspl. hier aus dem Forum)
Disallow: /
Für unerwünschte Spider, welche sich aber an die robots.txt halten, reicht das.
User-agent: *
bzw. genauer gesagt
User-agent: *
Allow: /
Ist relativ unnötig, da Spider keine Erlaubnis brauchen um ihren Job zu machen. Der Briefträger kriegt ja auch nicht jeden Tag gesagt: "Erlaubnis zum Briefe austragen erteilt". ;)

OliSEO
PostRank 3
PostRank 3
Beiträge: 97
Registriert: 24.11.2010, 17:06
Wohnort: im Vulkan

Beitrag von OliSEO » 28.06.2011, 09:16

@stefan26: besten Dank für die Info :)

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag