Seite 1 von 1

Bingbot sorgt für 2TB mehr an Traffic

Verfasst: 04.09.2013, 13:12
von netnite
Wir haben seit einigen Wochen extrem hohen Traffic auf einer Seite.

Bisher waren es immer maximal 200GB Traffic jeden Monat, sind es nun im August 2.000GB Traffic gewesen.
Ich hab nun rausfinden können, dass ein Bot von Bing dafür verantwortlich ist, der immer die news.html aufrift und so den Traffic erzeugt.

Taglich erzeugt der Bot 650.000 Anfragen auf die Website.

Code: Alles auswählen

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Ich habe es bereits versucht den Bot mittels htacces auszuschliessen:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^Mozilla/5.0\ \(compatible;\ bingbot/2.0;\ +http://www.bing.com/bingbot.htm\)\.*$ [NC]
RewriteRule ^.*$ - [F,L]
Funktioniert leider nicht.

Hat jemand schon ähnliches erfahren und kann mir Tipps geben, wie ich den Bot aussperren kann?

Robots.txt funktioniert nicht.

Verfasst:
von

Verfasst: 04.09.2013, 13:32
von Shinedown
Hi,

bist du dir sicher dass der Bing Bot dafür verantwortlich ist?

Eventuell wird auch mittels User Agent einfach nur vorgetäuscht, dass der Bing Bot dafür verantwortlich ist und stattdessen handelt es sich um Fake Bots.

Du könntest erstmal versuchen, die IP's zu sperren, die den meisten Traffic verursachen.

Verfasst: 04.09.2013, 14:04
von netnite
Bild

IP habe ich von dem Bot keine!

Verfasst: 04.09.2013, 16:43
von IT-Knecht
Und? Die User Agent Kennung kann jeder angeben wie er lustig ist.

- Martin

Verfasst: 04.09.2013, 17:13
von imwebsein
IT-Knecht hat geschrieben:Und? Die User Agent Kennung kann jeder angeben wie er lustig ist.

- Martin
It-Knecht anscheinend weiß er es aber nicht besser. Um ehrlich zu sein, mein Fachgebiet ist es auch nicht. Du weißt es anscheinend besser, aber deine Antwort hilft 0. Auch mich würde interessieren wie man bei dieser Problematik vorgehen kann.

Wieso also anstatt eine schnippische Antwort, nicht ein paar Zeilen dazu, wie er sich um das Problem kümmern kann wenn es eben nen Fake Bot ist und ggf. sogar gezielt gepuscht wird? Sonst sind deine Antworten doch auch nicht so Martin :)

Verfasst: 04.09.2013, 21:04
von Nokes
Kannst versuchen für einen kurzen Moment (halben Tag) alle IP Adressen + User-Agent hinten dran, mit zu loggen. Einfach in eine Textdatei schreiben (via PHP am besten). Danach auswerten und den Trafficverursacher per IP sperren.

Re: Bingbot sorgt für 2TB mehr an Traffic

Verfasst: 04.09.2013, 23:15
von nerd
netnite hat geschrieben: Ich habe es bereits versucht den Bot mittels htacces auszuschliessen:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^Mozilla/5.0\ \(compatible;\ bingbot/2.0;\ +http://www.bing.com/bingbot.htm\)\.*$ [NC]
RewriteRule ^.*$ - [F,L]
Funktioniert leider nicht.
Ich bin kein profi in Regex, aber fuer mich sieht es so aus als ob diese regel ein paar fehler hat. "\ " (Schraegstrich space) ist falsch; ebenso wie "\." am ende.
Ich wuerde einfach nur nach "compatible; bingbot/2.0;" suchen um den bot auszusperren.
Teste deinen string mal auf https://regexpal.com/ - oben kommt deine regex rein; unten dein useragent wie er in den logs auftaucht.

Verfasst: 05.09.2013, 09:27
von netnite
Danke an nokes und nerd für die sehr hilfreichen Antworten, die man leider nicht von jedem erwarten kann...

Ich hab nun mal eine Stunde die IP´s mitgeloggt und die IP´s die stark gehäuft auftraten sind tatsächlich alles BING-IP´s. Verglichen habe ich sie hier: https://myip.ms/info/bots/Google_Bing_Y ... esses.html

Alle die aufgeführten IP´s habe ich nun in der htaccess geblockt:

Code: Alles auswählen

order allow,deny
deny from 65.52.104
deny from 65.52.108
deny from 65.55.24
.... etc
allow from all 
Nun werden in der Log-File nur noch tatsächliche Aufrufe in "normaler" Häufung aufgelistet.

Ich werde weiter beobachten und dann nochmal berichten, ob es die Lösung für mein Problem ist.

Verfasst: 10.09.2013, 00:25
von om-labs
@netnite
nur um das mal klarzustellen.
obiger Screenshots ist aus einer Webalizer Auswertung.

"2253069 Anfragen" sind nicht Terrabyte oder Megabyte, sondern lediglich die Anzahl an erfolgten Anfragen.

Anfragen = Request
Webseiten werden durch HTML, CSS, Images und Javascript im Browser zusammengebaut.
Je nach Webseite müssen eine Vielzahl an Request gestellt werden, z.B. 50 Request pro Webseite.
Die Anzahl an Anfragen / Request sagt also nichts über den verbrauchten Traffik.

Nur so nebenbei, wenn deine Webseite 2 TB an Traffik veursachen würde, dann sperrt dir jeder normale Hoster das Webhosting, weil der Traffik unnormal hoch ist.

Verfasst: 10.09.2013, 00:37
von mtx93
Ich hatte da letztens auch einen Spike von Bing auf dem Server. Hatte mich gewundert, das kenne ich nämlich sonst nur von Baidu, der läuft gerne mal Amok.

Verfasst: 11.09.2013, 07:48
von netnite
om-labs hat geschrieben:@netnite
nur um das mal klarzustellen.
obiger Screenshots ist aus einer Webalizer Auswertung.

"2253069 Anfragen" sind nicht Terrabyte oder Megabyte, sondern lediglich die Anzahl an erfolgten Anfragen.

Anfragen = Request
Webseiten werden durch HTML, CSS, Images und Javascript im Browser zusammengebaut.
Je nach Webseite müssen eine Vielzahl an Request gestellt werden, z.B. 50 Request pro Webseite.
Die Anzahl an Anfragen / Request sagt also nichts über den verbrauchten Traffik.

Nur so nebenbei, wenn deine Webseite 2 TB an Traffik veursachen würde, dann sperrt dir jeder normale Hoster das Webhosting, weil der Traffik unnormal hoch ist.
Hast du alles gelesen oder einfach nur überflogen und geantwortet?

Du musst mir nicht erklären, woher der Screenshot kommt. Ich hab den Screenshot selber gemacht. Mir ist klar dass es 2253069 Anfragen sind. Bin ja schliesslich nicht dämlich. In dem Screenshot ging es lediglich darum den Agent zu zeigen und das Verhältnis der Anfragen abzubilden.

Und damit auch du Besserwisser nun beruhigt weitermachen kannst hier ein Screenshot aus dem Trafficmonitor:
Bild

Und nein der Hoster sperrt hier mal nix weil das unser eigener Server ist. Aber auch hier hast du scheinbar nicht richtig gelesen.

P.S. Wenn man sich nicht alles durchliest und Inhalte verstanden hat, lieber nichts schreiben, als sinnfreie Beiträge. Danke.

Im Übrigen Danke an alle anderen die mir mit Ihren Tips weitergeholfen haben. Ein zeitweises Tracking der IP´s hat geholfen die IP´s Bing bzw. MSN zuzuorden und auszuschliessen. Das hat nun zur Normalisierung des Traffic geführt.

Verfasst: 12.09.2013, 22:19
von tuennes
Wenn man per .htaccess bestimmte User Agents aussperren will, hat es sich bei mir bewährt, einen User Agent Switcher für den Webbrowser zu benutzen. Dann gibt man seinem Browser einfach die Kennung des auszusperrenden Bots und kann somit testen, ob die Regex-Regel richtig funktioniert.

Für Mozilla gibt es da mehrere vernünftige Add-ons...

Verfasst: 12.09.2013, 22:51
von Thomas B.
Der Webanalyzer bezieht seine Daten aus den Server logs, die Daten extra zu loggen ist eigentlich überflüssig.

Aber wenn es sich wirklich um einen Bing Bot handelt, kann man auch die robots.txt nutzen. Der msnbot unterstützt den Parameter Crawl-delay, damit kannst du die Zugriffe auf die Seite einschränken. Wenn du auf die Besucher die über Bing kommen nicht verzichten willst.

Schöne Grüße
Thomas