Seite 1 von 1

Crawler Yahoo/Google max httpd connections ?

Verfasst: 11.03.2009, 14:07
von seonewbie
Hallo,
ich versuche gerade einen Server an spezielle Anforderungen
anzupassen. Was ich wissen müßte mit wievielen connections
(httpd Prozesse) kommen der Googlebot oder Slurp gleichzeitig?


Gruß

Micha

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Re: Crawler Yahoo/Google max httpd connections ?

Verfasst: 11.03.2009, 15:05
von Mork vom Ork
seonewbie hat geschrieben:mit wievielen connections
(httpd-Prozesse) kommen der Googlebot oder Slurp gleichzeitig?
Mit einem. Beide unterstützen zudem HTTP-Kompression und HEAD-Abfragen.

Apache Server Status - Slurp

Verfasst: 11.03.2009, 15:28
von seonewbie
Hallo Mork vom Ork,

kennst Du das Tool Apache Server Status?
https://httpsd.apache.org/docs/2.0/mod/mod_status.html

Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL Datenbank der Google crawlt das ohne Probleme.

Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?

Vielen Dank für Deine Hilfe.

Gruß

Micha

Re: Apache Server Status - Slurp

Verfasst: 11.03.2009, 18:05
von Mork vom Ork
seonewbie hat geschrieben:Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL-Datenbank
Also wenn wegen 10 gleichzeitiger Anfragen dein Server in die Knie geht, hast du ein massives Problem mit dem Server, nicht mit Slurp. Du solltest prüfen, ob dein Umgang mit der Datenbank in der derzeitigen Form richtig ist.

Ich habe nochmal meine Protokolle durchgeschaut: Slurp benimmt sich hier ganz friedlich.

Code: Alles auswählen

+-------+---------------------+--------+---------+
| host  | time                | status | deflate |
+-------+---------------------+--------+---------+
| 18966 | 2009-03-01 00:18:35 |    304 |    NULL |
| 18966 | 2009-03-01 00:32:14 |    200 |      36 |
| 18966 | 2009-03-01 00:43:58 |    200 |      42 |
| 18966 | 2009-03-01 00:46:30 |    304 |    NULL |
| 51890 | 2009-03-01 00:49:04 |    200 |      27 |
| 18966 | 2009-03-01 00:50:22 |    200 |      42 |
| 17189 | 2009-03-01 00:50:49 |    304 |    NULL |
| 18966 | 2009-03-01 00:59:36 |    200 |      40 |
| 18966 | 2009-03-01 01:13:36 |    200 |      39 |
| 17189 | 2009-03-01 01:42:08 |    200 |      41 |
| 18966 | 2009-03-01 01:53:53 |    200 |      45 |
| 17189 | 2009-03-01 01:56:41 |    200 |      20 |
| 18966 | 2009-03-01 02:05:11 |    200 |      35 |
| 17189 | 2009-03-01 02:05:24 |    200 |      33 |
| 18966 | 2009-03-01 02:08:27 |    304 |    NULL |
| 17189 | 2009-03-01 02:44:55 |    200 |      37 |
| 17189 | 2009-03-01 02:57:36 |    200 |      35 |
| 17189 | 2009-03-01 02:59:54 |    200 |      38 |
| 18966 | 2009-03-01 03:10:02 |    200 |      35 |
| 17189 | 2009-03-01 03:17:03 |    304 |    NULL |
| 17189 | 2009-03-01 03:30:50 |    200 |      42 |
| 18966 | 2009-03-01 03:38:52 |    200 |      43 |
| 18966 | 2009-03-01 03:41:36 |    304 |    NULL |
| 17189 | 2009-03-01 03:49:30 |    200 |      31 |
| 17189 | 2009-03-01 03:53:15 |    200 |      43 |
| 17189 | 2009-03-01 03:57:36 |    304 |    NULL |
Wie du siehst, schön über mehrere Stunden verteilt, vieles kann ich schnell mit 304 erledigen („hat sich seit letztem Besuch nicht geändert“ - ist natürlich recht seitenspezifisch) und ansonsten auf gut ein Drittel geschrumpft übermitteln.
Die einzigen Fälle, in denen er zwei Anfragen direkt in derselben Sekunde hintereinander startet, sind Weiterleitungen. Aber selbst da legt er dann und wann bis zu einer halben Minute Pause ein.
kennst Du das Tool Apache Server Status?
Achte bei der Ausgabe von mod_status darauf, in welchem Zustand sich eine Anfrage befindet. K und _ sind nicht aktiv, sondern warten auf die Gegenstelle (K) bzw. auf eine gänzlich neue Verbindung (_). Vielleicht weißt du das ja schon, aber auf den ersten Blick ist das leicht zu übersehen, weil in den restlichen Spalten, namentlich IP und URL, Werte von Anfragen angezeigt werden, die schon längst abgearbeitet sind.
Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?
Grundsätzlich nicht, aber wie auf der Slurp-Seite zu lesen ist, kennt der Bot eine Option namens Crawl-delay.

Solche Infos findest du übrigens ganz leicht, indem du der URL folgst, die jeder ordentliche Bot in deinem Zugriffsprotokoll hinterlässt; bei Slurp wäre das „Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; https://help.yahoo.com/help/us/ysearch/slurp)“.

K und _ sind nicht aktiv

Verfasst: 11.03.2009, 18:47
von seonewbie
@Mork vom Ork
Vielen Dank für deine Antwort.
Und ja die Konfiguration ist schlecht gewesen und es war auch das
ich den Apache Status falsch interprätiert hatte genau wie Du es
beschrieben hast. Übersieht man wirklich leicht. Komisch ist nur
das er obwohl ich KeepAlive Off habe die Prozesse noch zeigt
aber auf jeden Fall fressen die keine Resourcen.


Hintergrund der Frage war übrigens folgender. Eine grosse DB
mit wenigen zugriffen. Hier muß man das Kind halt von hinten
aufzäumen und scheinbar erst mal schauen wieviel RAM braucht
MySQL um optimal zu laufen und den Rest gibt man dann dem
Apache ... halt genau andersherum wie man es sonst macht.

Ist zwar mühsamer aber ging nach mehreren Anläufen und
deinem Tip dann auch ... wirkt nur komisch wenn man
max-connection lediglich auf 25 hat aber läuft wie die Wutz
und mehr wird der Server auch nie an gleichzeitigen zugriffen
haben.

Vielen Dank für deine Hilfe