Seite 1 von 2

Googlebot Kennung

Verfasst: 01.11.2004, 20:43
von augenblickmal
Hallo und guten Abend.

Handelt es sich bei folgender Kennung um den Googlebot?


Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)


Meines Wissens ist sie doch geringfügig anders, oder?

Weiß jemand bescheid?


Lars

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 01.11.2004, 20:50
von bull

Verfasst: 01.11.2004, 21:21
von Nexus
Hi,

dieser GoogleBot ist schon einige Monate unterwegs. Er kann unter anderem gzip, was der "alte" Bot nicht konnte.

Auch mir ist dieser Bot heute wieder aufgefallen weil er das erste Mal einen Deepcrawl bei mir macht. Seit heute morgen ist er fleissig dabei ;-)
Früher kam dieser Bot bei mir nur sporadisch vorbei, die echten Crawls hat immer noch der alte gemacht.

Was das jetzt zu bedeuten hat, wage ich nicht zu interepretieren... :roll:

Gruß
Raphael

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 01.11.2004, 21:32
von bull
Richtig Raphael, habe daher den Googlebot-Abschnitt unter der o.g. URL etwas aktualisiert. :wink:

"Mozzilla" Googlebot flippt aus

Verfasst: 01.11.2004, 22:43
von FrankyGER
Hi,

mir hat gerade dieser googlebot die Sicherung im Server rausgeknallt.
Wenn ich meine Seite aufrufe kommt: Diese Seite ist auf Grund von zu hoher CPU Belastung vorübergehend nicht verfügbar. Bitte versuchen Sie es später noch einmal.

er ist schon den ganzen Tag unterwegs auf meiner Site und zieht sich alles mögliche rein, auch Seiten, wo ich nicht den geringsten Link drauf finden kann. Weiss der Teufel wie er da hinkommt. (*.php mit parameter, die es zwar gibt, ich aber nie verlinkt habe)
Über 4mb access.log und davon vielleicht 10% Besucher.

Schlimmer ist aber das Tempo. Hier ein kleiner Auszug:
crawl-66-249-66-148.googlebot.com - "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:39 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:40 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:41 +0100]
[01/Nov/2004:22:10:42 +0100]
[01/Nov/2004:22:10:42 +0100]
[01/Nov/2004:22:10:42 +0100]
[01/Nov/2004:22:10:43 +0100]
[01/Nov/2004:22:10:43 +0100]
[01/Nov/2004:22:10:43 +0100]
[01/Nov/2004:22:10:43 +0100]......

Immer so 3-8 Seiten Pro Sekunde

Ja ist der bot denn verrückt geworden? Wieso darf Google server abschiessen?

Gruß, Frank

Verfasst: 01.11.2004, 22:48
von bull
Irgendwo Session-IDs in der URL? Forum? Wird schnell problematisch.

Verfasst: 01.11.2004, 22:57
von Nexus
Hi,
er ist schon den ganzen Tag unterwegs auf meiner Site und zieht sich alles mögliche rein, auch Seiten, wo ich nicht den geringsten Link drauf finden kann. Weiss der Teufel wie er da hinkommt.
Er scheint tatsächlich auf sehr alte Datenbestände zurückzugreifen. Bei der Durchsicht meiner Logfiles war mir aufgefallen das einige Abfragen auf Seiten stattfanden die defintiv nie von mir erstellt oder verlinkt worden sind.
Eine Recherche hat dann gezeigt das die Domain vor mir schon einmal registiert war, und der Bot versucht auf diese alten Seiten der Domain zuzugreifen.

Zwischen der Freigabe und der Neuregistrierung der Domain lagen 13 Monate!

Gruß
Raphael

Verfasst: 01.11.2004, 23:07
von linux
ich kann nur bestätigen, daß der googlebot um sein leben rennt. ser nimmt unsere 2 cpus ganz schön her, und er nimmt alle seiten auf auf die ich schon lange warte. ich kann nur hoffen daß das so weiter geht. wenn dein httpd(apache) richitig eingestellt ist sollte er nicht deinen cpu überlasten. selbst einer unserern celerons cpus auf nem anderen server macht keine zicken und da sind gleichzeitig 12.000 uv pro tag drauf. schreib mal per pn was das für ne kiste ist und was der top befeahl zeigt.

Verfasst: 01.11.2004, 23:26
von FrankyGER
das Problem dabei ist, es sind Seiten die content von einem anderen Server ziehen und diesen mit php aufbereiten.
Ist nicht mein Server, mein Provider wird mir nur Ärger machen. Mal morgen schauen was mir das für ne traffic Belastung gebracht hat :-(

Verfasst: 01.11.2004, 23:26
von inso
FrankyGER:

du solltest einen 302 header senden wenn google die seiten schon kennt.
das belastet den server wesentlich weniger und spart ausserdem traffic.

inso

Verfasst: 02.11.2004, 00:03
von Webby
Es war heute auf abakus auch eine deepcrawl von Googlebot und teilweise inktomi mit +100 gäste. Es hat zum manchmal zum absturz das Forum gebracht hat (hat tbone schon gesehen mit eine nicht genug speicher fehler) un dich habe eine eine hoch leistung dedizierte server. Man kann aber nicht gegen machen. Es gibt aber übrigens die möglichkeit die msnbot ein bischen zu grenzen mit eine 'crawl delay' commando in .htaccess. die andere aber ignorieren die.

Alan

Verfasst: 02.11.2004, 00:14
von linux
hm ich verstehe nicht daß ihr alle probleme mit den server habt, der googlebot war heute 70.000 mal da und macht gerade weiter und alles geht noch. kein user hat wartezeiten. aber mal was anderes seit wann kann der googlebot javascript? unsere empfehlen funktion geht nur mit javascript popup und das macht er auf? hab ich da was nicht mitbekommen.

Verfasst: 02.11.2004, 02:50
von Southmedia
linux, ich hab hier pro server ca ne viertel million durchschnittlich heute. zum glück aber gleichmäßig über den tag verteilt, vorgestern war das noch einiges konzentrierter und deshalb doch recht kritisch. da kann es dann bei datenbanklastigen anwendungen knapp werden. und dass das phpbb nicht gerade datenbankfreundlich ist dürfte bekannt sein.

mach zu deinen anderen fragen doch am besten einfach nen neuen thread auf.

Verfasst: 02.11.2004, 07:52
von bull
Linux, kannst Du im Log mal nachschauen, ob er, sofern es sich um externe Skripte handelt, die entsprechenden .js - Dateien gezogen hat?

Diskussion bei WMW. Manche vermuten dort, für mich ziemlich haltlos, daß dieses Bombardieren zum Herausfinden der Serverbelastbarkeit dient und belastbarere Seiten künftig höher gelistet werden.

Verfasst: 02.11.2004, 10:23
von linux
ich weiß nicht ob das so haltlos ist. ich habe mal mit meinem kollegen eine liste zusammengeschrieben wie wir das als google machen würden. ganz oben stand bei uns, die ping/request zeit und die performance.