auf Grund eines kleineren DoS-Problems haben wir unsere Sperrmaßnahmen etwas verschärft. Nun tritt das Problem auf, dass ich der Google aussperrt, weil er die robots.txt nicht befolgt:
er liest die robots.txt:
66.249.66.231 - - [06/Dec/2005:06:44:05 +0100] "GET /robots.txt HTTP/1.1" 200 266 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
Hallo hatte gerade darüber nachgedacht,
wie ich es anstelle, per robots.txt für ein Projekt
alle Bots/Spider außer Googlebot zu sperren.
Ist das richtig, dass sich der Googlebot nicht an *
hält, siehe oben im Thread, sondern getrennt
angesprochen werden muß. Das wäre für mich und
mein Problem ja genial.
Ach nö, ich denke nicht _Extrawurst_ ich denke eher dass die robots war gelesen aber dann nicht on the fly ausgewertet wird.
Ich hab mal versehentlich ein Verzeichnis gesperrt, der bot hat sich hartnäckig daran gehalten. 6 tage nach dem Enfernen dieser Sperre hat er immer noch alles gelesen, bis auf dieses Verzeichnis eben.
Für mich sieht das so aus. Ist ein Verzeichnis neu hält er sich auch daran, kenne ich nicht anders. Ist ein Verzeichns bereits bekannt dauert es Tage bis der bot die Regeln der Robots (Änderungen darin) befolgt.
Meine Erfahrung dazu, andere Erkenntnisse willkommen.