Seite 1 von 1

robots.txt und Mozilla-Bot

Verfasst: 06.12.2005, 08:45
von jensjk
auf Grund eines kleineren DoS-Problems haben wir unsere Sperrmaßnahmen etwas verschärft. Nun tritt das Problem auf, dass ich der Google aussperrt, weil er die robots.txt nicht befolgt:

er liest die robots.txt:
66.249.66.231 - - [06/Dec/2005:06:44:05 +0100] "GET /robots.txt HTTP/1.1" 200 266 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

er bekommt diese robots.txt:

User-agent: *
Disallow: /cgi-bin/
...
Disallow: /blog/

und 27sec später will er auf das Verzeichnis /blog/ zugreifen:

66.249.66.231 - - [06/Dec/2005:06:44:32 +0100] "GET /blog/index.php/all?blog=1&page=1&disp=posts&paged=1 HTTP/1.1" 200 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Dieser Aufruf löst die Falle aus, weil da eben die DoS/Spam-Attacke draufliegt.

Hat jemand eine Erklärung?

Verfasst:
von

robots.txt und Mozilla-Bot

Verfasst: 06.12.2005, 09:29
von Mario670
Versuchs mal mit: User-agent: Googlebot

robots.txt und Mozilla-Bot

Verfasst: 06.12.2005, 09:37
von jensjk
Gehört der Googlebot nicht zum * ? Muß man den eine extra-Abteilung spendieren?

robots.txt und Mozilla-Bot

Verfasst: 06.12.2005, 09:59
von Mario670
scheinbar muss man das, siehe auch hier: https://www.abakus-internet-marketing.d ... 21280.html

robots.txt und Mozilla-Bot

Verfasst: 06.12.2005, 10:08
von Der_Benno
@ jensik:

Offenbar funktioniert das so, der Test von Mario670 jedenfalls scheint ok zu sein.

Verfasst: 06.12.2005, 11:17
von jensjk
na dann braten wir für g**gle halt wieder eine Extrawurst. Was wunderts uns noch. Hier kann man das Problem wenigstens nachvollziehen.

@mario670

Danke für den Test. Meine Beobachtung bestätigt den also einfach noch mal.

Verfasst: 22.12.2005, 11:13
von fool
Hallo hatte gerade darüber nachgedacht,
wie ich es anstelle, per robots.txt für ein Projekt
alle Bots/Spider außer Googlebot zu sperren.

Ist das richtig, dass sich der Googlebot nicht an *
hält, siehe oben im Thread, sondern getrennt
angesprochen werden muß. Das wäre für mich und
mein Problem ja genial.

Gruß
fool

und schöne Feiertage schon mal.

robots.txt und Mozilla-Bot

Verfasst: 22.12.2005, 17:19
von Xaver
Ach nö, ich denke nicht _Extrawurst_ ich denke eher dass die robots war gelesen aber dann nicht on the fly ausgewertet wird.

Ich hab mal versehentlich ein Verzeichnis gesperrt, der bot hat sich hartnäckig daran gehalten. 6 tage nach dem Enfernen dieser Sperre hat er immer noch alles gelesen, bis auf dieses Verzeichnis eben.

Für mich sieht das so aus. Ist ein Verzeichnis neu hält er sich auch daran, kenne ich nicht anders. Ist ein Verzeichns bereits bekannt dauert es Tage bis der bot die Regeln der Robots (Änderungen darin) befolgt.

Meine Erfahrung dazu, andere Erkenntnisse willkommen.

Gruß Xaver

robots.txt und Mozilla-Bot

Verfasst: 22.12.2005, 17:37
von oldInternetUser
Warum wird eigentlich nicht die offizielle Erläuterung zu diesen Beobachtungen gelesen?

robots.txt und Mozilla-Bot

Verfasst: 22.12.2005, 22:40
von Xaver
Danke für den Link, deckt sich in etwa mit dem was ich selber beobachtet habe. (nur das einmal pro tag hab ich anders erlebt).