Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Bingbot sorgt für 2TB mehr an Traffic

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
netnite
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 07.06.2013, 10:50

Beitrag von netnite » 04.09.2013, 13:12

Wir haben seit einigen Wochen extrem hohen Traffic auf einer Seite.

Bisher waren es immer maximal 200GB Traffic jeden Monat, sind es nun im August 2.000GB Traffic gewesen.
Ich hab nun rausfinden können, dass ein Bot von Bing dafür verantwortlich ist, der immer die news.html aufrift und so den Traffic erzeugt.

Taglich erzeugt der Bot 650.000 Anfragen auf die Website.

Code: Alles auswählen

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Ich habe es bereits versucht den Bot mittels htacces auszuschliessen:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^Mozilla/5.0\ \(compatible;\ bingbot/2.0;\ +http://www.bing.com/bingbot.htm\)\.*$ [NC]
RewriteRule ^.*$ - [F,L]
Funktioniert leider nicht.

Hat jemand schon ähnliches erfahren und kann mir Tipps geben, wie ich den Bot aussperren kann?

Robots.txt funktioniert nicht.

Shinedown
PostRank 3
PostRank 3
Beiträge: 74
Registriert: 19.05.2011, 21:26

Beitrag von Shinedown » 04.09.2013, 13:32

Hi,

bist du dir sicher dass der Bing Bot dafür verantwortlich ist?

Eventuell wird auch mittels User Agent einfach nur vorgetäuscht, dass der Bing Bot dafür verantwortlich ist und stattdessen handelt es sich um Fake Bots.

Du könntest erstmal versuchen, die IP's zu sperren, die den meisten Traffic verursachen.

netnite
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 07.06.2013, 10:50

Beitrag von netnite » 04.09.2013, 14:04

Bild

IP habe ich von dem Bot keine!

IT-Knecht
PostRank 8
PostRank 8
Beiträge: 772
Registriert: 13.02.2004, 09:04
Wohnort: ~ Düsseldorf

Beitrag von IT-Knecht » 04.09.2013, 16:43

Und? Die User Agent Kennung kann jeder angeben wie er lustig ist.

- Martin

imwebsein
PostRank 9
PostRank 9
Beiträge: 1979
Registriert: 25.09.2011, 23:44

Beitrag von imwebsein » 04.09.2013, 17:13

IT-Knecht hat geschrieben:Und? Die User Agent Kennung kann jeder angeben wie er lustig ist.

- Martin
It-Knecht anscheinend weiß er es aber nicht besser. Um ehrlich zu sein, mein Fachgebiet ist es auch nicht. Du weißt es anscheinend besser, aber deine Antwort hilft 0. Auch mich würde interessieren wie man bei dieser Problematik vorgehen kann.

Wieso also anstatt eine schnippische Antwort, nicht ein paar Zeilen dazu, wie er sich um das Problem kümmern kann wenn es eben nen Fake Bot ist und ggf. sogar gezielt gepuscht wird? Sonst sind deine Antworten doch auch nicht so Martin :)

Nokes
PostRank 6
PostRank 6
Beiträge: 425
Registriert: 07.11.2010, 21:10

Beitrag von Nokes » 04.09.2013, 21:04

Kannst versuchen für einen kurzen Moment (halben Tag) alle IP Adressen + User-Agent hinten dran, mit zu loggen. Einfach in eine Textdatei schreiben (via PHP am besten). Danach auswerten und den Trafficverursacher per IP sperren.
Gruß,
<br /><br />Nico
<br /><br />
<br /><br />robots.txt viewer | Nischen Themen finden

nerd
PostRank 10
PostRank 10
Beiträge: 4023
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 04.09.2013, 23:15

netnite hat geschrieben: Ich habe es bereits versucht den Bot mittels htacces auszuschliessen:

Code: Alles auswählen

RewriteCond %&#123;HTTP_USER_AGENT&#125; ^Mozilla/5.0\ \&#40;compatible;\ bingbot/2.0;\ +http&#58;//www.bing.com/bingbot.htm\&#41;\.*$ &#91;NC&#93;
RewriteRule ^.*$ - &#91;F,L&#93;
Funktioniert leider nicht.
Ich bin kein profi in Regex, aber fuer mich sieht es so aus als ob diese regel ein paar fehler hat. "\ " (Schraegstrich space) ist falsch; ebenso wie "\." am ende.
Ich wuerde einfach nur nach "compatible; bingbot/2.0;" suchen um den bot auszusperren.
Teste deinen string mal auf https://regexpal.com/ - oben kommt deine regex rein; unten dein useragent wie er in den logs auftaucht.

netnite
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 07.06.2013, 10:50

Beitrag von netnite » 05.09.2013, 09:27

Danke an nokes und nerd für die sehr hilfreichen Antworten, die man leider nicht von jedem erwarten kann...

Ich hab nun mal eine Stunde die IP´s mitgeloggt und die IP´s die stark gehäuft auftraten sind tatsächlich alles BING-IP´s. Verglichen habe ich sie hier: https://myip.ms/info/bots/Google_Bing_Ya ... esses.html

Alle die aufgeführten IP´s habe ich nun in der htaccess geblockt:

Code: Alles auswählen

order allow,deny
deny from 65.52.104
deny from 65.52.108
deny from 65.55.24
.... etc
allow from all 
Nun werden in der Log-File nur noch tatsächliche Aufrufe in "normaler" Häufung aufgelistet.

Ich werde weiter beobachten und dann nochmal berichten, ob es die Lösung für mein Problem ist.

om-labs
PostRank 6
PostRank 6
Beiträge: 422
Registriert: 14.12.2011, 12:58
Wohnort: Hannover

Beitrag von om-labs » 10.09.2013, 00:25

@netnite
nur um das mal klarzustellen.
obiger Screenshots ist aus einer Webalizer Auswertung.

"2253069 Anfragen" sind nicht Terrabyte oder Megabyte, sondern lediglich die Anzahl an erfolgten Anfragen.

Anfragen = Request
Webseiten werden durch HTML, CSS, Images und Javascript im Browser zusammengebaut.
Je nach Webseite müssen eine Vielzahl an Request gestellt werden, z.B. 50 Request pro Webseite.
Die Anzahl an Anfragen / Request sagt also nichts über den verbrauchten Traffik.

Nur so nebenbei, wenn deine Webseite 2 TB an Traffik veursachen würde, dann sperrt dir jeder normale Hoster das Webhosting, weil der Traffik unnormal hoch ist.

mtx93
PostRank 8
PostRank 8
Beiträge: 809
Registriert: 16.12.2011, 00:35

Beitrag von mtx93 » 10.09.2013, 00:37

Ich hatte da letztens auch einen Spike von Bing auf dem Server. Hatte mich gewundert, das kenne ich nämlich sonst nur von Baidu, der läuft gerne mal Amok.

netnite
PostRank 2
PostRank 2
Beiträge: 30
Registriert: 07.06.2013, 10:50

Beitrag von netnite » 11.09.2013, 07:48

om-labs hat geschrieben:@netnite
nur um das mal klarzustellen.
obiger Screenshots ist aus einer Webalizer Auswertung.

"2253069 Anfragen" sind nicht Terrabyte oder Megabyte, sondern lediglich die Anzahl an erfolgten Anfragen.

Anfragen = Request
Webseiten werden durch HTML, CSS, Images und Javascript im Browser zusammengebaut.
Je nach Webseite müssen eine Vielzahl an Request gestellt werden, z.B. 50 Request pro Webseite.
Die Anzahl an Anfragen / Request sagt also nichts über den verbrauchten Traffik.

Nur so nebenbei, wenn deine Webseite 2 TB an Traffik veursachen würde, dann sperrt dir jeder normale Hoster das Webhosting, weil der Traffik unnormal hoch ist.
Hast du alles gelesen oder einfach nur überflogen und geantwortet?

Du musst mir nicht erklären, woher der Screenshot kommt. Ich hab den Screenshot selber gemacht. Mir ist klar dass es 2253069 Anfragen sind. Bin ja schliesslich nicht dämlich. In dem Screenshot ging es lediglich darum den Agent zu zeigen und das Verhältnis der Anfragen abzubilden.

Und damit auch du Besserwisser nun beruhigt weitermachen kannst hier ein Screenshot aus dem Trafficmonitor:
Bild

Und nein der Hoster sperrt hier mal nix weil das unser eigener Server ist. Aber auch hier hast du scheinbar nicht richtig gelesen.

P.S. Wenn man sich nicht alles durchliest und Inhalte verstanden hat, lieber nichts schreiben, als sinnfreie Beiträge. Danke.

Im Übrigen Danke an alle anderen die mir mit Ihren Tips weitergeholfen haben. Ein zeitweises Tracking der IP´s hat geholfen die IP´s Bing bzw. MSN zuzuorden und auszuschliessen. Das hat nun zur Normalisierung des Traffic geführt.

tuennes
PostRank 5
PostRank 5
Beiträge: 266
Registriert: 09.08.2009, 13:03
Wohnort: Köln

Beitrag von tuennes » 12.09.2013, 22:19

Wenn man per .htaccess bestimmte User Agents aussperren will, hat es sich bei mir bewährt, einen User Agent Switcher für den Webbrowser zu benutzen. Dann gibt man seinem Browser einfach die Kennung des auszusperrenden Bots und kann somit testen, ob die Regex-Regel richtig funktioniert.

Für Mozilla gibt es da mehrere vernünftige Add-ons...

Thomas B.
PostRank 4
PostRank 4
Beiträge: 137
Registriert: 11.09.2013, 21:04
Wohnort: München

Beitrag von Thomas B. » 12.09.2013, 22:51

Der Webanalyzer bezieht seine Daten aus den Server logs, die Daten extra zu loggen ist eigentlich überflüssig.

Aber wenn es sich wirklich um einen Bing Bot handelt, kann man auch die robots.txt nutzen. Der msnbot unterstützt den Parameter Crawl-delay, damit kannst du die Zugriffe auf die Seite einschränken. Wenn du auf die Besucher die über Bing kommen nicht verzichten willst.

Schöne Grüße
Thomas

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag