Seite 1 von 1

Hilfe! Googlebot läuft Amok :(

Verfasst: 07.04.2008, 12:05
von it-worker
Googlebot besucht meine Seiten in letzter Zeit sehr häufig. Das ist eigentlich ja positiv, aber er besucht so intensiv, das der Server inzwischen das nicht mehr verträgt. Es werden wahnsinnig viele Apache-Prozesse gleichzeitig gestartet, der Apache-Dienst fällt 1 bis 2x pro Tag ganz aus :(

Ich hab die Besuche von Googlebot mal mit den Vormonaten verglichen. Seit ca. 1 Monat besucht Google ca. 10x so häufig was die Visits betrifft und erzeugt ein paarhundert mal so viele Hits als vorher.

Ich hab die MaxClients im apache2.conf jetzt mal raufgedreht auf 250 (Standardwert 150). Jetzt hab ich einen Load der liegt immer zwischen 1 und 3, dafür werden die Seiten noch geöffnet. Vorher lag der Load zwischen 0,5 und 1, aber dafür gingen die Seiten nicht mehr auf weil zu viele Prozesse offen waren. Angst dass er trotzdem wieder mal völlig ausfällt hab ich schon :(

Also ich bin irgendwie ratlos. Was soll ich tun? Ich kann doch nicht den Googlebot aussperren :)

Vielleicht noch was zur Website die es hauptsächlich betrifft:
Es handelt sich um eine Seite wo sehr viel Content vorhanden ist auf diversen Unterseiten - wirklich sehr viel. Aber der Content ist nicht so neu, die Website gibt's seit 2004 wo sich der Content nach und nach aufbaute. Aber die Probleme traten schlagartig auf.

Kann es vielleicht sein, dass die Crawler von Google irgendwie anders arbeiten seit ca. 1 Monat? Hat Google vielleicht ein paartausend Server dazugekauft, dass öfter/intensiver gespidert werden kann? Irgend einen Grund muss es doch geben. Was meint ihr?

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 07.04.2008, 12:10
von linux
was ist bei dir viel? 1 mil mal am tag pro domain? was für ein server ist das ram, cpu...
man kann sicher mit ner einstellungen was machen, aber dazu sind diese angaben nötig

gruß

linux

Verfasst: 07.04.2008, 12:17
von Ilka
Ich habe das Problem auch gehabt. Ich hatte leider Session IDs an meinen Seiten die Google munter verfolgte. Das konnte ich aber abstellen. Dir empfehle ich aber in den Webmastertools den Punkt: Crawling-Geschwindigkeit festlegen" zu wählen und dort auf "Langsam" zu schalten. Das wirkt sofort.


Stürmische Grüße

Verfasst:
von

Verfasst: 07.04.2008, 12:24
von it-worker
Danke für die überaus schnelle Antwort!

Für die hauptsächlich betroffene Domain:
360868 Zugriffe in der letzten Woche durch Google

Linux Debian Etch Apache2, Kernel 2.6
1GB Ram
2,8GHz PIV

230 vHosts laufen drauf, wobei 100 nur Mini-Seiten sind mit einer Index und einem Bildchen. Der Server produziert so 80 bis 100GB Traffic pro Monat. Die betroffene Domain hat ca. 2.000 bis 3.000 Besucher am Tag - aber auch erst seit ca. 1 Monat. Davor waren es so an die 800 bis 1.000 pro Tag. Wo die herkommen ist mir aber auch ein Rätsel. Von Google kommen sie nicht - sagt zumindest Webalizer. Auffällig ist nur, dass der Googlebot der mit Abstand beste Besucher ist :) Auch was die Anzahl der Tasks betrifft

Verfasst: 07.04.2008, 12:30
von SeoBlogger.de
it-worker hat geschrieben: Für die hauptsächlich betroffene Domain:
360868 Zugriffe in der letzten Woche durch Google
pro stunde oder pro tag?

bei letzterem empfehle ich diese lektüre: https://dev.mysql.com/doc/refman/5.1/de ... index.html

Verfasst: 07.04.2008, 12:50
von Yafamedia
Wow
So ein problem is mir noch nie begegnet.

die meisten träumen vom regelmäßigen Besuch der google bot :D

Verfasst: 07.04.2008, 12:50
von it-worker
@Seoblogger.de: Sorry, vergessen: Das ist für einen Zeitraum von 6 Tagen. Betrifft aber nur die eine Domain. Die Domain fällt halt besonders aus im access.log

@Ilka: Danke für den Tipp, das habe ich jetzt mal gemacht. Bin schon gespannt wie sich das auswirkt.

Verfasst: 07.04.2008, 12:52
von SeoBlogger.de
du hast probleme bei 360.000 hits auf 6 tage? das sind 60.000 hits pro tag.
optimier mal deine datenbank...60k hits sollte ein normal-moderner server pro stunde vertragen...

Verfasst: 07.04.2008, 13:02
von linux
yupp seoblogger.de hat recht ein webserver sollte 60.000 pro stunde sogar aushalten. wenn ich das richtig verstehe sind da 230 vhosts drauf, ist da eine datenbank drauf oder nur apache?

schnelles wiesel

https://www.linux-magazin.de/heft_abo/a ... les_wiesel

sonst einfach fragen posten kann dann sicher helfen, aber wie gesagt der server muß VIEL mehr aushalten

gruß

linux

Verfasst: 17.10.2008, 09:30
von Pegasus
hey,

googlebot läuft bei uns gerade richtig amok. wir haben heute bereits 270.000 anfragen und es ist kein ende in sicht. wenn das so weiter geht sind wir bald tot.

hat jemand noch ein paar nützliche tipps?

Verfasst: 17.10.2008, 10:10
von elbwicht
kann das ein generelles "problem" heute sein?
bei mir sinds auch vormittags 3x soviele zugriffe von google, wie sonst am vormittag...

Verfasst: 17.10.2008, 10:53
von proit
scheint so, bei mehreren domains, immer drei Bots aus dem gleichen IP Range
z.B. 66.249.71.4x unterwegs, teilweise mehr als 1 Seite pro Minute.

Komisch, sowas ist mir bisher auch noch nicht aufgefallen.

Verfasst: 17.10.2008, 11:11
von Pompom
teilweise mehr als 1 Seite pro Minute.

ehrlich ?!
Das war wohl ein kranker Bot im Rollstuhl.

Verfasst: 17.10.2008, 11:39
von proit
Pompom hat geschrieben:
teilweise mehr als 1 Seite pro Minute.

ehrlich ?!
Das war wohl ein kranker Bot im Rollstuhl.
Also von den Seiten die ich betreue und für meine Verhältnisse stark frequentiert sind, macht der Google bot so in der Regel 1 Seite in 1 - 2 Minuten. In den Logs heute sehe ich, dass teilweise nur 02 - 30 s vergehen bis zum nächsten Aufruf, und das mit 3 Bots gleichzeit. Daher bin ich schon etwas erstaunt.

Verfasst: 17.10.2008, 12:28
von Pompom
crawl-66-249-72-xxx.googlebot.com - - [17/Oct/2008:12:33:04 +0200] "GET
crawl-66-249-72-xxx.googlebot.com - - [17/Oct/2008:12:33:09 +0200] "GET
crawl-66-249-72-xxx.googlebot.com - - [17/Oct/2008:12:33:09 +0200] "GET
crawl-66-249-72-xxx.googlebot.com - - [17/Oct/2008:12:33:10 +0200] "GET
crawl-66-249-72-xxx.googlebot.com - - [17/Oct/2008:12:33:10 +0200] "GET

Das ist nur der Bot unter einer IP auf einer Seite, die mit "normal"-Geschwindigkeit gecrawlt wird.

Die Botaktivität unterliegt (bei meinen Domains derzeit) noch einer Schwankung um bis zu 800%.