Seite 1 von 1

robots.txt müssen sich Bots/Crawler dran halten?

Verfasst: 23.12.2009, 19:49
von monopolis
Hallo,
ich wollte mal fragen ob es in Deutschland eine gesetzliche Grundlage für die Einhaltung robots.txt gibt.

Ich glaube kaum das es Sinn macht, diese zu nutzen um nicht erwünschte Gäste auszuschließen, außer bei Bots wo man genau weiß, die halten sich daran. Hier wäre doch .htaccess mit IP Sperre deutlich sinvoller oder?

Danke

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 23.12.2009, 20:11
von luzie
Richtig (Gesetzliches gibt's da nicht und gegen Mal-bots hilft kein robots.txt)

https://www.google.com/search?q=bottrap

Verfasst: 23.12.2009, 21:45
von monopolis
Hallo, ok danke für die Info. Bottrap brauch ich erstmal nicht. Mit Webspam hatte ich in dem Sinne eigentlich noch keine Probleme, wollte nur wissen ob es da eine entsprechende Regelung gibt.

Ich lese öfter wo, dass man Useragent xyz in seine robots.txt blocken solle usw. um sich zu schützen - aber wenn die robots.txt nicht geparst wird, bringt das wie schon gesagt eh nichts.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 24.12.2009, 04:10
von SEOAgentur
Siehe Wikipedia robots.txt. Ist ganz aufschlussreich - die schreiben alles rein, wissen aber teilweise, dass es nichts bringt. ;)

https://en.wikipedia.org/robots.txt

Lustig ist: "Please obey robots.txt" - da werden die robots sicher aufpassen :D

Im Übrigen gibt es auch eine ganze Menge gemeldeter Fälle, wo der Google Bot die robots.txt missachtete.

Verfasst: 24.12.2009, 15:12
von monopolis
Hehe :D . Ich glaube die Leute, welche Bots schreiben nutzen die Zeit sinvoller für funktionale Features als die schlecht parsbare robots.txt zu parsen und sich daran in den fortlaufenden Funktionsaufrufen zu halten. :)

Verfasst: 25.12.2009, 16:29
von luzie
SEOAgentur hat geschrieben:Im Übrigen gibt es auch eine ganze Menge gemeldeter Fälle, wo der Google Bot die robots.txt missachtete.
Die will ich sehen! (Ich kenne die nicht)

Verfasst: 25.12.2009, 16:33
von luzie
monopolis hat geschrieben:Ich lese öfter wo, dass man Useragent xyz in seine robots.txt blocken solle usw. um sich zu schützen - aber wenn die robots.txt nicht geparst wird, bringt das wie schon gesagt eh nichts.
Naja, es gibt Bots, die robots.txt beachten, und die man evtl. doch blocken möchte (MSNbot kann so'n Kandidat sein). (Der Zweck von robots.txt ist auch weniger Bots ganz auszuschliessen, sondern Teilbereiche einer Site, meistens aus technischen Gründen, unzugänglich zu machen)

Verfasst: 26.12.2009, 10:46
von Stephan Zöllner
luzie hat geschrieben:
SEOAgentur hat geschrieben:Im Übrigen gibt es auch eine ganze Menge gemeldeter Fälle, wo der Google Bot die robots.txt missachtete.
Die will ich sehen! (Ich kenne die nicht)
Ich tippe da eher darauf, daß es sich um getarntes Ungeziefer handelt und nicht um einen orginal GOOgle.bot

Bot-Trap installieren und das Ungeziefer Melden. Dann hat man deutlich mehr Ruhe ...

Verfasst: 26.12.2009, 11:08
von Mork vom Ork
Dass Google sich nicht an die robots.txt halten würde, wurde hier schon mal behauptet - Beweise gab es nie, immer nur das übliche oft/viele/mehrmals/häufig in Verbindung mit dem Bekannten/Forum/Board/Spezialist/Profi, der das beobachtet haben will.

Schon, dass es bei der Netzdurchdringung Googles nur ein paar einsame Rufer melden, sollte aber zu denken geben. Gründe für einen Irrtum gibt's einen ganzen Batzen, die erwähnten Schummler und Scherzkekse, ohne Inhalt indizierte URLs, fehlerhafte robots.txt …

Verfasst: 26.12.2009, 14:01
von Stephan Zöllner
Klar kann man auch den User-Agent-Switcher dazu mißbrauchen um Google das Mißachten der robots.txt vorzuwerfen.

Beim genauen Hinschauen, also dem Anschauen der Logs und dem Verfolgen IPs fliegt das aber schnell auf.

Darum habe ich ja auch den Hinweis auf Bot-Trap gegeben weil man das dort eigentlich recht gut gelöst hat wenn man ein Bad-Behavior meldet. Es wird nämlich erst mal u.A. geprüft wem die IP gehört, die dahinter steckt und ob von dieser Adresse noch anderes unerwünschtes / auffälliges Verhalten kommt.

Außerdem kann man einen Bot in den Logs meistens ganz gut von einen Besucher unterscheiden, denn die Bots rufen NUR die Seiten selbst auf, lassen aber das CSS und die Bilder (meistens) in Ruhe.