Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

googlebot legt Server lahm ?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
emmis
PostRank 3
PostRank 3
Beiträge: 77
Registriert: 12.05.2004, 15:03

Beitrag von emmis » 09.06.2005, 08:24

Hallo,
gibt es eine Möglichkeit dem googlebot zu sagen er soll nur eine bestimmte Menge an Seiten spidern oder das er die Seite nur alle 5 Tage neu spidert?

Wie oft der bot kommt weiß ich nicht genau aber von 23-8 Uhr macht er ganze arbeit und das bis an die grenzen meines Servers.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Snort
PostRank 1
PostRank 1
Beiträge: 16
Registriert: 23.05.2005, 23:39
Wohnort: Berlin

Beitrag von Snort » 09.06.2005, 08:39

Was für ein server hast du den?
bzw was für ne kleine leitung?

Fände es äuserst komich wenn der server durch den Google Bot überlastet!

manuelfu
PostRank 5
PostRank 5
Beiträge: 229
Registriert: 08.07.2004, 07:18
Wohnort: Donaueschingen

Beitrag von manuelfu » 09.06.2005, 08:42

Rein praktisch kenne ich das Phänomen der übermäßigen Server-Belastung durch den Googlebot nur dann, wenn Fehler seitens der Verlinkung (z.B. Endlos-Schleifen) aufgetreten sind.

Kannst Du derartige Faktoren definitiv ausschließen ?

Ist es ganz sicher der Googlebot ?

Grüße,
Manuel

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


ts77
PostRank 4
PostRank 4
Beiträge: 146
Registriert: 03.02.2005, 13:58

Beitrag von ts77 » 09.06.2005, 08:44

Wieviele req/s laufen denn da in der Nacht auf?
Ich habe selten mal über 2 req/s und das sollte jeder Server schaffen.

emmis
PostRank 3
PostRank 3
Beiträge: 77
Registriert: 12.05.2004, 15:03

Beitrag von emmis » 09.06.2005, 08:45

hi, naja der Leistungsfähigste Server ist es wohl nicht aber ich will auch nicht auf einen größeren wechseln.
Habe einen "Exclusiv-Server von Puretec" da es den aber nicht mehr im Angebot gibt weiß ich nicht was er für eine Leistung hat.

Auch habe ich google untersagt meine Seiten in den google-cache aufzunehmen, ob es schon daran liegt? Das kann ich mir eigendlich nicht vorstellen da er ja trotzdem meine Seiten holen muß und vergleichen.

Da ich es nicht loggen lasse und nur in google gelistet bin kann es nur der bot sein. Ich schätze 10.000 - 15.000 mal in 2 Stunden greift er zu. Das erkenne ich an meinem cache.

linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 09.06.2005, 09:06

hm nur bei google gelistet wie machst denn das? msnbot yahoobot wissen sicher auch daß es dich gibt. 100000-15000 in 2 stunden muß die kiste locker aushalten das packt ja ein celeron mit 256 locker, ist die kiste auf windoof? ein linux rechner kann z.b locker 300 req pro sek. stemmen wenn der apache gut eingestellt ist


gruß

linux
Zuletzt geändert von linux am 09.06.2005, 09:24, insgesamt 1-mal geändert.

marc75
PostRank 9
PostRank 9
Beiträge: 1916
Registriert: 06.10.2004, 09:36

Beitrag von marc75 » 09.06.2005, 09:17

schau mal in die logs ob es nicht doch der msnbot ist, der hat früher schon so einige Seiten lahmgelegt.

emmis
PostRank 3
PostRank 3
Beiträge: 77
Registriert: 12.05.2004, 15:03

Beitrag von emmis » 09.06.2005, 09:23

sorry, aber ich habe keine Logs, ich werde mir mal ein kleines Script schreiben welches mir die Besucheranzahl der Bots zählt, kann dann morgen etwas genaueres sagen.

ts77
PostRank 4
PostRank 4
Beiträge: 146
Registriert: 03.02.2005, 13:58

Beitrag von ts77 » 09.06.2005, 09:24

keine access-logs???? wow ;)

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 09.06.2005, 09:26

sorry, aber ich habe keine Logs
Selbst der Billigtarif von 1&1 für zweineunundneunzig hat Echtzeit-Apache-Logs. Vielleicht schaust Du lieber noch einmal nach.

linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 09.06.2005, 09:29

nochmal egal wie ein bot hämmert der server darf NICHT down gehen. normalerweise haste ne 100 M/bits Anbindung der apache schafft das
Creating 32 session mutexes based on 150 max processes das sollte reichen 32x150

hast ssh dann mache mal bitte den top befehl unter linux der zeigt an was da so am server zieht,

falls du ne mysql hast wird die bei manchen linux systemen nicht angezeigt, sprich wenn die usage auf 90% und kein prozess dazu auszumachen ist dann ist es die mysql

gruß

linux

emmis
PostRank 3
PostRank 3
Beiträge: 77
Registriert: 12.05.2004, 15:03

Beitrag von emmis » 09.06.2005, 10:43

naja ok die Logs bei 1&1 kann ich nicht finden, ich logge jetzt mal selbst die größeren Bots mit, so wie es im Moment ausschaut ist das Problem inktomi : if (stristr($trackUserAgent ,"slurp")

@linux
Das ist schon wieder zu hoch für mich, ändern kann ich am apache nix, es ist kein root Server aber mysql hängt mit dran.

Es wird wohl an dem kompletten Script liegen, es wird zuviel abgefragt und Seiten geladen das schon wenige Bots ausreichen den Server in die Knie zu zwingen.

marc75
PostRank 9
PostRank 9
Beiträge: 1916
Registriert: 06.10.2004, 09:36

Beitrag von marc75 » 09.06.2005, 12:34

bist bei 1und1 ?

dann nimm mal folgenden code

Code: Alles auswählen

<?php
  error_reporting&#40;E_ALL&#41;;
  if &#40;empty&#40;$file&#41;&#41; $file= 'index.html';

  // traffic.html is actually a directory
  if &#40;'traffic.html' == $file&#41; $file= 'traffic.html/index.html';

  function _basename&#40;$str&#41; &#123;
    return preg_replace&#40;array&#40;'=\.&#123;2,&#125;=', '=/+='&#41;, array&#40;'', '/'&#41;, $str&#41;;
  &#125;

  function _linkcb&#40;$matches&#41; &#123;
    switch &#40;strtolower&#40;$matches&#91;1&#93;&#41;&#41; &#123;
      case 'src'&#58;
        return 'src="'.basename&#40;$GLOBALS&#91;'PHP_SELF'&#93;&#41;.'?img='.urlencode&#40;$matches&#91;2&#93;&#41;.'"';
    
      case 'href'&#58; 
        if &#40;preg_match&#40;'=^&#40;ht|f&#41;tps?&#58;//=', $matches&#91;2&#93;&#41;&#41; &#123;
          return 'href="'.$matches&#91;2&#93;.'" target="_external"';
        &#125;
        return sprintf&#40;
          'href="%s?file=%s/%s"',
          basename&#40;$GLOBALS&#91;'PHP_SELF'&#93;&#41;,
          dirname&#40;$GLOBALS&#91;'file'&#93;&#41;,
          str_replace&#40;'%23', '#', urlencode&#40;$matches&#91;2&#93;&#41;&#41;
        &#41;;
    &#125;  
    return FALSE;
  &#125;

  // Workaround for domains not connected to ~/
  $DOCUMENT_ROOT= preg_replace&#40;'=^&#40;&#91;/a-z0-9&#93;+/htdocs/&#41;.*$=','\1',getenv&#40;'DOCUMENT_ROOT'&#41;&#41;;

  // Handle images
  if &#40;isset&#40;$img&#41;&#41; &#123; 
    header&#40;'Content-type&#58; image/gif'&#41;;
    switch &#40;substr&#40;$img, 0, 7&#41;&#41; &#123;
      case '/spicon'&#58; 
        $uri= 'http&#58;//'.getenv&#40;'HTTP_HOST'&#41;.'/spicons/'.basename&#40;$img&#41;;
        break;
    
      case 'http&#58;//'&#58;
        $uri= $img;
        break;

      default&#58;
        $uri= $DOCUMENT_ROOT.'/logs/'._basename&#40;$img&#41;;
    &#125;    
    readfile&#40;$uri&#41;;
    exit;
  &#125;

  // Do some sanity checks
  $file= _basename&#40;$file&#41;;
  $filename= $DOCUMENT_ROOT.'/logs/'.$file;
  if &#40;is_dir&#40;$filename&#41; || !file_exists&#40;$filename&#41;&#41; &#123;
    header&#40;"Status&#58; 404 Not Found"&#41;;
    echo "<h1>File not found</h1><p>The request file &#123;$filename&#125; could not be found</p>";
    exit;
  &#125;

  // Parse HTML
  $content= implode&#40;'', file&#40;$filename&#41;&#41;;
  $content= preg_replace_callback&#40;
    '/&#40;src|href&#41; ?= ?&#91;"\'&#93;&#40;&#91;^#&#93;&#91;^"\'&#93;*&#41;&#91;"\'&#93;/iU',
    '_linkcb',
    $content
  &#41;;
  echo $content;

  echo '<hr/>';
 // show_source&#40;basename&#40;$PHP_SELF&#41;&#41;;
?>
füge es in eine leere datei ein und nenne die mal logs.php, einfach ins root kopieren und aufrufen.

Fridaynite
PostRank 10
PostRank 10
Beiträge: 2983
Registriert: 07.01.2004, 09:10

Beitrag von Fridaynite » 09.06.2005, 13:12

Es wird wohl an dem kompletten Script liegen, es wird zuviel abgefragt und Seiten geladen das schon wenige Bots ausreichen den Server in die Knie zu zwingen.
Das Problem habe ich auch bei einem bestimmten Server - immer wenn die Bots da sind, geht die db in die Knie - nicht der Apache

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 09.06.2005, 13:16

Da gibt es doch einen Zusatz für die robots.txt . Crawl-Delay heisst das glaube ich.

Allerdings wird das wohl nur von Yahoo! und msn unterstützt.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag