robots.txt und Mozilla-Bot

Beitrag von **Anonymous** » 06.12.2005, 08:45

auf Grund eines kleineren DoS-Problems haben wir unsere Sperrmaßnahmen etwas verschärft. Nun tritt das Problem auf, dass ich der Google aussperrt, weil er die robots.txt nicht befolgt:

er liest die robots.txt:
66.249.66.231 - - [06/Dec/2005:06:44:05 +0100] "GET /robots.txt HTTP/1.1" 200 266 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

er bekommt diese robots.txt:

User-agent: *
Disallow: /cgi-bin/
...
Disallow: /blog/

und 27sec später will er auf das Verzeichnis /blog/ zugreifen:

66.249.66.231 - - [06/Dec/2005:06:44:32 +0100] "GET /blog/index.php/all?blog=1&page=1&disp=posts&paged=1 HTTP/1.1" 200 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Dieser Aufruf löst die Falle aus, weil da eben die DoS/Spam-Attacke draufliegt.

Hat jemand eine Erklärung?

von **Anzeige von ABAKUS** »

Beitrag von **Mario670** » 06.12.2005, 09:29

Versuchs mal mit: User-agent: Googlebot

Beitrag von **Anonymous** » 06.12.2005, 09:37

Gehört der Googlebot nicht zum * ? Muß man den eine extra-Abteilung spendieren?

Beitrag von **Mario670** » 06.12.2005, 09:59

scheinbar muss man das, siehe auch hier: https://www.abakus-internet-marketing.d ... 21280.html

Beitrag von **Der_Benno** » 06.12.2005, 10:08

@ jensik:

Offenbar funktioniert das so, der Test von Mario670 jedenfalls scheint ok zu sein.

Beitrag von **Anonymous** » 06.12.2005, 11:17

na dann braten wir für g**gle halt wieder eine Extrawurst. Was wunderts uns noch. Hier kann man das Problem wenigstens nachvollziehen.

@mario670

Danke für den Test. Meine Beobachtung bestätigt den also einfach noch mal.

Beitrag von **fool** » 22.12.2005, 11:13

Hallo hatte gerade darüber nachgedacht,
wie ich es anstelle, per robots.txt für ein Projekt
alle Bots/Spider außer Googlebot zu sperren.

Ist das richtig, dass sich der Googlebot nicht an *
hält, siehe oben im Thread, sondern getrennt
angesprochen werden muß. Das wäre für mich und
mein Problem ja genial.

Gruß
fool

und schöne Feiertage schon mal.

Beitrag von **Xaver** » 22.12.2005, 17:19

Ach nö, ich denke nicht _Extrawurst_ ich denke eher dass die robots war gelesen aber dann nicht on the fly ausgewertet wird.

Ich hab mal versehentlich ein Verzeichnis gesperrt, der bot hat sich hartnäckig daran gehalten. 6 tage nach dem Enfernen dieser Sperre hat er immer noch alles gelesen, bis auf dieses Verzeichnis eben.

Für mich sieht das so aus. Ist ein Verzeichnis neu hält er sich auch daran, kenne ich nicht anders. Ist ein Verzeichns bereits bekannt dauert es Tage bis der bot die Regeln der Robots (Änderungen darin) befolgt.

Meine Erfahrung dazu, andere Erkenntnisse willkommen.

Gruß Xaver

Beitrag von **oldInternetUser** » 22.12.2005, 17:37

Warum wird eigentlich nicht die offizielle Erläuterung zu diesen Beobachtungen gelesen?

Beitrag von **Xaver** » 22.12.2005, 22:40

Danke für den Link, deckt sich in etwa mit dem was ich selber beobachtet habe. (nur das einmal pro tag hab ich anders erlebt).