Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Crawler Yahoo/Google max httpd connections ?

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
seonewbie
PostRank 9
PostRank 9
Beiträge: 1939
Registriert: 21.10.2006, 20:50

Beitrag von seonewbie » 11.03.2009, 14:07

Hallo,
ich versuche gerade einen Server an spezielle Anforderungen
anzupassen. Was ich wissen müßte mit wievielen connections
(httpd Prozesse) kommen der Googlebot oder Slurp gleichzeitig?


Gruß

Micha
Suche Linktausch zum Thema Mode. Bitte PM
Backlink-Generator | Artikelverzeichnis | PageRank | SEnuke X
Don't smoke, don't fight, don't light no cigarettes,
Or else you'll wind up in the can!
No jokes, no rights, sit tight, don't fool around,
You are a guest of Uncle Sam!
AC/DC "I'll be damned"

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Mork vom Ork
PostRank 9
PostRank 9
Beiträge: 2557
Registriert: 08.07.2008, 11:07
Wohnort: Aufm Friedhof.

Beitrag von Mork vom Ork » 11.03.2009, 15:05

seonewbie hat geschrieben:mit wievielen connections
(httpd-Prozesse) kommen der Googlebot oder Slurp gleichzeitig?
Mit einem. Beide unterstützen zudem HTTP-Kompression und HEAD-Abfragen.

seonewbie
PostRank 9
PostRank 9
Beiträge: 1939
Registriert: 21.10.2006, 20:50

Beitrag von seonewbie » 11.03.2009, 15:28

Hallo Mork vom Ork,

kennst Du das Tool Apache Server Status?
https://httpsd.apache.org/docs/2.0/mod/mod_status.html

Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL Datenbank der Google crawlt das ohne Probleme.

Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?

Vielen Dank für Deine Hilfe.

Gruß

Micha
Suche Linktausch zum Thema Mode. Bitte PM
Backlink-Generator | Artikelverzeichnis | PageRank | SEnuke X
Don't smoke, don't fight, don't light no cigarettes,
Or else you'll wind up in the can!
No jokes, no rights, sit tight, don't fool around,
You are a guest of Uncle Sam!
AC/DC "I'll be damned"

Mork vom Ork
PostRank 9
PostRank 9
Beiträge: 2557
Registriert: 08.07.2008, 11:07
Wohnort: Aufm Friedhof.

Beitrag von Mork vom Ork » 11.03.2009, 18:05

seonewbie hat geschrieben:Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL-Datenbank
Also wenn wegen 10 gleichzeitiger Anfragen dein Server in die Knie geht, hast du ein massives Problem mit dem Server, nicht mit Slurp. Du solltest prüfen, ob dein Umgang mit der Datenbank in der derzeitigen Form richtig ist.

Ich habe nochmal meine Protokolle durchgeschaut: Slurp benimmt sich hier ganz friedlich.

Code: Alles auswählen

+-------+---------------------+--------+---------+
| host  | time                | status | deflate |
+-------+---------------------+--------+---------+
| 18966 | 2009-03-01 00:18:35 |    304 |    NULL |
| 18966 | 2009-03-01 00:32:14 |    200 |      36 |
| 18966 | 2009-03-01 00:43:58 |    200 |      42 |
| 18966 | 2009-03-01 00:46:30 |    304 |    NULL |
| 51890 | 2009-03-01 00:49:04 |    200 |      27 |
| 18966 | 2009-03-01 00:50:22 |    200 |      42 |
| 17189 | 2009-03-01 00:50:49 |    304 |    NULL |
| 18966 | 2009-03-01 00:59:36 |    200 |      40 |
| 18966 | 2009-03-01 01:13:36 |    200 |      39 |
| 17189 | 2009-03-01 01:42:08 |    200 |      41 |
| 18966 | 2009-03-01 01:53:53 |    200 |      45 |
| 17189 | 2009-03-01 01:56:41 |    200 |      20 |
| 18966 | 2009-03-01 02:05:11 |    200 |      35 |
| 17189 | 2009-03-01 02:05:24 |    200 |      33 |
| 18966 | 2009-03-01 02:08:27 |    304 |    NULL |
| 17189 | 2009-03-01 02:44:55 |    200 |      37 |
| 17189 | 2009-03-01 02:57:36 |    200 |      35 |
| 17189 | 2009-03-01 02:59:54 |    200 |      38 |
| 18966 | 2009-03-01 03:10:02 |    200 |      35 |
| 17189 | 2009-03-01 03:17:03 |    304 |    NULL |
| 17189 | 2009-03-01 03:30:50 |    200 |      42 |
| 18966 | 2009-03-01 03:38:52 |    200 |      43 |
| 18966 | 2009-03-01 03:41:36 |    304 |    NULL |
| 17189 | 2009-03-01 03:49:30 |    200 |      31 |
| 17189 | 2009-03-01 03:53:15 |    200 |      43 |
| 17189 | 2009-03-01 03:57:36 |    304 |    NULL |
Wie du siehst, schön über mehrere Stunden verteilt, vieles kann ich schnell mit 304 erledigen („hat sich seit letztem Besuch nicht geändert“ - ist natürlich recht seitenspezifisch) und ansonsten auf gut ein Drittel geschrumpft übermitteln.
Die einzigen Fälle, in denen er zwei Anfragen direkt in derselben Sekunde hintereinander startet, sind Weiterleitungen. Aber selbst da legt er dann und wann bis zu einer halben Minute Pause ein.
kennst Du das Tool Apache Server Status?
Achte bei der Ausgabe von mod_status darauf, in welchem Zustand sich eine Anfrage befindet. K und _ sind nicht aktiv, sondern warten auf die Gegenstelle (K) bzw. auf eine gänzlich neue Verbindung (_). Vielleicht weißt du das ja schon, aber auf den ersten Blick ist das leicht zu übersehen, weil in den restlichen Spalten, namentlich IP und URL, Werte von Anfragen angezeigt werden, die schon längst abgearbeitet sind.
Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?
Grundsätzlich nicht, aber wie auf der Slurp-Seite zu lesen ist, kennt der Bot eine Option namens Crawl-delay.

Solche Infos findest du übrigens ganz leicht, indem du der URL folgst, die jeder ordentliche Bot in deinem Zugriffsprotokoll hinterlässt; bei Slurp wäre das „Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; https://help.yahoo.com/help/us/ysearch/slurp)“.

seonewbie
PostRank 9
PostRank 9
Beiträge: 1939
Registriert: 21.10.2006, 20:50

Beitrag von seonewbie » 11.03.2009, 18:47

@Mork vom Ork
Vielen Dank für deine Antwort.
Und ja die Konfiguration ist schlecht gewesen und es war auch das
ich den Apache Status falsch interprätiert hatte genau wie Du es
beschrieben hast. Übersieht man wirklich leicht. Komisch ist nur
das er obwohl ich KeepAlive Off habe die Prozesse noch zeigt
aber auf jeden Fall fressen die keine Resourcen.


Hintergrund der Frage war übrigens folgender. Eine grosse DB
mit wenigen zugriffen. Hier muß man das Kind halt von hinten
aufzäumen und scheinbar erst mal schauen wieviel RAM braucht
MySQL um optimal zu laufen und den Rest gibt man dann dem
Apache ... halt genau andersherum wie man es sonst macht.

Ist zwar mühsamer aber ging nach mehreren Anläufen und
deinem Tip dann auch ... wirkt nur komisch wenn man
max-connection lediglich auf 25 hat aber läuft wie die Wutz
und mehr wird der Server auch nie an gleichzeitigen zugriffen
haben.

Vielen Dank für deine Hilfe
Suche Linktausch zum Thema Mode. Bitte PM
Backlink-Generator | Artikelverzeichnis | PageRank | SEnuke X
Don't smoke, don't fight, don't light no cigarettes,
Or else you'll wind up in the can!
No jokes, no rights, sit tight, don't fool around,
You are a guest of Uncle Sam!
AC/DC "I'll be damned"

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag