ABAKUS

Verfasst: **06.12.2005, 08:45**

auf Grund eines kleineren DoS-Problems haben wir unsere Sperrmaßnahmen etwas verschärft. Nun tritt das Problem auf, dass ich der Google aussperrt, weil er die robots.txt nicht befolgt:

er liest die robots.txt:
66.249.66.231 - - [06/Dec/2005:06:44:05 +0100] "GET /robots.txt HTTP/1.1" 200 266 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

er bekommt diese robots.txt:

User-agent: *
Disallow: /cgi-bin/
...
Disallow: /blog/

und 27sec später will er auf das Verzeichnis /blog/ zugreifen:

66.249.66.231 - - [06/Dec/2005:06:44:32 +0100] "GET /blog/index.php/all?blog=1&page=1&disp=posts&paged=1 HTTP/1.1" 200 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Dieser Aufruf löst die Falle aus, weil da eben die DoS/Spam-Attacke draufliegt.

Hat jemand eine Erklärung?

Verfasst: **06.12.2005, 09:29**

Versuchs mal mit: User-agent: Googlebot

Verfasst: **06.12.2005, 09:37**

Gehört der Googlebot nicht zum * ? Muß man den eine extra-Abteilung spendieren?

Verfasst: **06.12.2005, 09:59**

scheinbar muss man das, siehe auch hier: https://www.abakus-internet-marketing.d ... 21280.html

Verfasst: **06.12.2005, 10:08**

@ jensik:

Offenbar funktioniert das so, der Test von Mario670 jedenfalls scheint ok zu sein.

Verfasst: **06.12.2005, 11:17**

na dann braten wir für g**gle halt wieder eine Extrawurst. Was wunderts uns noch. Hier kann man das Problem wenigstens nachvollziehen.

@mario670

Danke für den Test. Meine Beobachtung bestätigt den also einfach noch mal.

Verfasst: **22.12.2005, 11:13**

Hallo hatte gerade darüber nachgedacht,
wie ich es anstelle, per robots.txt für ein Projekt
alle Bots/Spider außer Googlebot zu sperren.

Ist das richtig, dass sich der Googlebot nicht an *
hält, siehe oben im Thread, sondern getrennt
angesprochen werden muß. Das wäre für mich und
mein Problem ja genial.

Gruß
fool

und schöne Feiertage schon mal.

Verfasst: **22.12.2005, 17:19**

Ach nö, ich denke nicht _Extrawurst_ ich denke eher dass die robots war gelesen aber dann nicht on the fly ausgewertet wird.

Ich hab mal versehentlich ein Verzeichnis gesperrt, der bot hat sich hartnäckig daran gehalten. 6 tage nach dem Enfernen dieser Sperre hat er immer noch alles gelesen, bis auf dieses Verzeichnis eben.

Für mich sieht das so aus. Ist ein Verzeichnis neu hält er sich auch daran, kenne ich nicht anders. Ist ein Verzeichns bereits bekannt dauert es Tage bis der bot die Regeln der Robots (Änderungen darin) befolgt.

Meine Erfahrung dazu, andere Erkenntnisse willkommen.

Gruß Xaver

Verfasst: **22.12.2005, 17:37**

Warum wird eigentlich nicht die offizielle Erläuterung zu diesen Beobachtungen gelesen?

Verfasst: **22.12.2005, 22:40**

Danke für den Link, deckt sich in etwa mit dem was ich selber beobachtet habe. (nur das einmal pro tag hab ich anders erlebt).

ABAKUS

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot

robots.txt und Mozilla-Bot