ABAKUS

Verfasst: **01.11.2004, 20:43**

Hallo und guten Abend.

Handelt es sich bei folgender Kennung um den Googlebot?

Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)

Meines Wissens ist sie doch geringfügig anders, oder?

Weiß jemand bescheid?

Lars

Verfasst: **01.11.2004, 20:50**

https://www.abakus-internet-marketing.d ... -1001.html

Verfasst: **01.11.2004, 21:21**

Hi,

dieser GoogleBot ist schon einige Monate unterwegs. Er kann unter anderem gzip, was der "alte" Bot nicht konnte.

Auch mir ist dieser Bot heute wieder aufgefallen weil er das erste Mal einen Deepcrawl bei mir macht. Seit heute morgen ist er fleissig dabei

Früher kam dieser Bot bei mir nur sporadisch vorbei, die echten Crawls hat immer noch der alte gemacht.

Was das jetzt zu bedeuten hat, wage ich nicht zu interepretieren...

Gruß
Raphael

Verfasst: **01.11.2004, 21:32**

Richtig Raphael, habe daher den Googlebot-Abschnitt unter der o.g. URL etwas aktualisiert.

Verfasst: **01.11.2004, 22:43**

Hi,

mir hat gerade dieser googlebot die Sicherung im Server rausgeknallt.
Wenn ich meine Seite aufrufe kommt: Diese Seite ist auf Grund von zu hoher CPU Belastung vorübergehend nicht verfügbar. Bitte versuchen Sie es später noch einmal.

er ist schon den ganzen Tag unterwegs auf meiner Site und zieht sich alles mögliche rein, auch Seiten, wo ich nicht den geringsten Link drauf finden kann. Weiss der Teufel wie er da hinkommt. (*.php mit parameter, die es zwar gibt, ich aber nie verlinkt habe)
Über 4mb access.log und davon vielleicht 10% Besucher.

Schlimmer ist aber das Tempo. Hier ein kleiner Auszug:
crawl-66-249-66-148.googlebot.com - "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:42 +0100]
[01/Nov/2004:22:10:42 +0100]
[01/Nov/2004:22:10:42 +0100]
[01/Nov/2004:22:10:43 +0100]
[01/Nov/2004:22:10:43 +0100]
[01/Nov/2004:22:10:43 +0100]
[01/Nov/2004:22:10:43 +0100]......

Immer so 3-8 Seiten Pro Sekunde

Ja ist der bot denn verrückt geworden? Wieso darf Google server abschiessen?

Gruß, Frank

Verfasst: **01.11.2004, 22:48**

Irgendwo Session-IDs in der URL? Forum? Wird schnell problematisch.

Verfasst: **01.11.2004, 22:57**

Hi,

er ist schon den ganzen Tag unterwegs auf meiner Site und zieht sich alles mögliche rein, auch Seiten, wo ich nicht den geringsten Link drauf finden kann. Weiss der Teufel wie er da hinkommt.

Er scheint tatsächlich auf sehr alte Datenbestände zurückzugreifen. Bei der Durchsicht meiner Logfiles war mir aufgefallen das einige Abfragen auf Seiten stattfanden die defintiv nie von mir erstellt oder verlinkt worden sind.
Eine Recherche hat dann gezeigt das die Domain vor mir schon einmal registiert war, und der Bot versucht auf diese alten Seiten der Domain zuzugreifen.

Zwischen der Freigabe und der Neuregistrierung der Domain lagen 13 Monate!

Gruß
Raphael

Verfasst: **01.11.2004, 23:07**

ich kann nur bestätigen, daß der googlebot um sein leben rennt. ser nimmt unsere 2 cpus ganz schön her, und er nimmt alle seiten auf auf die ich schon lange warte. ich kann nur hoffen daß das so weiter geht. wenn dein httpd(apache) richitig eingestellt ist sollte er nicht deinen cpu überlasten. selbst einer unserern celerons cpus auf nem anderen server macht keine zicken und da sind gleichzeitig 12.000 uv pro tag drauf. schreib mal per pn was das für ne kiste ist und was der top befeahl zeigt.

Verfasst: **01.11.2004, 23:26**

das Problem dabei ist, es sind Seiten die content von einem anderen Server ziehen und diesen mit php aufbereiten.
Ist nicht mein Server, mein Provider wird mir nur Ärger machen. Mal morgen schauen was mir das für ne traffic Belastung gebracht hat

Verfasst: **01.11.2004, 23:26**

FrankyGER:

du solltest einen 302 header senden wenn google die seiten schon kennt.
das belastet den server wesentlich weniger und spart ausserdem traffic.

inso

Verfasst: **02.11.2004, 00:03**

Es war heute auf abakus auch eine deepcrawl von Googlebot und teilweise inktomi mit +100 gäste. Es hat zum manchmal zum absturz das Forum gebracht hat (hat tbone schon gesehen mit eine nicht genug speicher fehler) un dich habe eine eine hoch leistung dedizierte server. Man kann aber nicht gegen machen. Es gibt aber übrigens die möglichkeit die msnbot ein bischen zu grenzen mit eine 'crawl delay' commando in .htaccess. die andere aber ignorieren die.

Alan

Verfasst: **02.11.2004, 00:14**

hm ich verstehe nicht daß ihr alle probleme mit den server habt, der googlebot war heute 70.000 mal da und macht gerade weiter und alles geht noch. kein user hat wartezeiten. aber mal was anderes seit wann kann der googlebot javascript? unsere empfehlen funktion geht nur mit javascript popup und das macht er auf? hab ich da was nicht mitbekommen.

Verfasst: **02.11.2004, 02:50**

linux, ich hab hier pro server ca ne viertel million durchschnittlich heute. zum glück aber gleichmäßig über den tag verteilt, vorgestern war das noch einiges konzentrierter und deshalb doch recht kritisch. da kann es dann bei datenbanklastigen anwendungen knapp werden. und dass das phpbb nicht gerade datenbankfreundlich ist dürfte bekannt sein.

mach zu deinen anderen fragen doch am besten einfach nen neuen thread auf.

Verfasst: **02.11.2004, 07:52**

Linux, kannst Du im Log mal nachschauen, ob er, sofern es sich um externe Skripte handelt, die entsprechenden .js - Dateien gezogen hat?

Diskussion bei WMW. Manche vermuten dort, für mich ziemlich haltlos, daß dieses Bombardieren zum Herausfinden der Serverbelastbarkeit dient und belastbarere Seiten künftig höher gelistet werden.

Verfasst: **02.11.2004, 10:23**

ich weiß nicht ob das so haltlos ist. ich habe mal mit meinem kollegen eine liste zusammengeschrieben wie wir das als google machen würden. ganz oben stand bei uns, die ping/request zeit und die performance.

ABAKUS

Googlebot Kennung

Googlebot Kennung

"Mozzilla" Googlebot flippt aus