seonewbie hat geschrieben:Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL-Datenbank
Also wenn wegen 10 gleichzeitiger Anfragen dein Server in die Knie geht, hast du ein massives Problem mit dem Server, nicht mit Slurp. Du solltest prüfen, ob dein Umgang mit der Datenbank in der derzeitigen Form richtig ist.
Ich habe nochmal meine Protokolle durchgeschaut: Slurp benimmt sich hier ganz friedlich.
Code: Alles auswählen
+-------+---------------------+--------+---------+
| host | time | status | deflate |
+-------+---------------------+--------+---------+
| 18966 | 2009-03-01 00:18:35 | 304 | NULL |
| 18966 | 2009-03-01 00:32:14 | 200 | 36 |
| 18966 | 2009-03-01 00:43:58 | 200 | 42 |
| 18966 | 2009-03-01 00:46:30 | 304 | NULL |
| 51890 | 2009-03-01 00:49:04 | 200 | 27 |
| 18966 | 2009-03-01 00:50:22 | 200 | 42 |
| 17189 | 2009-03-01 00:50:49 | 304 | NULL |
| 18966 | 2009-03-01 00:59:36 | 200 | 40 |
| 18966 | 2009-03-01 01:13:36 | 200 | 39 |
| 17189 | 2009-03-01 01:42:08 | 200 | 41 |
| 18966 | 2009-03-01 01:53:53 | 200 | 45 |
| 17189 | 2009-03-01 01:56:41 | 200 | 20 |
| 18966 | 2009-03-01 02:05:11 | 200 | 35 |
| 17189 | 2009-03-01 02:05:24 | 200 | 33 |
| 18966 | 2009-03-01 02:08:27 | 304 | NULL |
| 17189 | 2009-03-01 02:44:55 | 200 | 37 |
| 17189 | 2009-03-01 02:57:36 | 200 | 35 |
| 17189 | 2009-03-01 02:59:54 | 200 | 38 |
| 18966 | 2009-03-01 03:10:02 | 200 | 35 |
| 17189 | 2009-03-01 03:17:03 | 304 | NULL |
| 17189 | 2009-03-01 03:30:50 | 200 | 42 |
| 18966 | 2009-03-01 03:38:52 | 200 | 43 |
| 18966 | 2009-03-01 03:41:36 | 304 | NULL |
| 17189 | 2009-03-01 03:49:30 | 200 | 31 |
| 17189 | 2009-03-01 03:53:15 | 200 | 43 |
| 17189 | 2009-03-01 03:57:36 | 304 | NULL |
Wie du siehst, schön über mehrere Stunden verteilt, vieles kann ich schnell mit 304 erledigen („hat sich seit letztem Besuch nicht geändert“ - ist natürlich recht seitenspezifisch) und ansonsten auf gut ein Drittel geschrumpft übermitteln.
Die einzigen Fälle, in denen er zwei Anfragen direkt in derselben Sekunde hintereinander startet, sind Weiterleitungen. Aber selbst da legt er dann und wann bis zu einer halben Minute Pause ein.
kennst Du das Tool Apache Server Status?
Achte bei der Ausgabe von mod_status darauf, in welchem Zustand sich eine Anfrage befindet. K und _ sind
nicht aktiv, sondern warten auf die Gegenstelle (K) bzw. auf eine gänzlich neue Verbindung (_). Vielleicht weißt du das ja schon, aber auf den ersten Blick ist das leicht zu übersehen, weil in den restlichen Spalten, namentlich IP und URL, Werte von Anfragen angezeigt werden, die schon längst abgearbeitet sind.
Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?
Grundsätzlich nicht, aber wie auf der
Slurp-Seite zu lesen ist, kennt der Bot eine Option namens Crawl-delay.
Solche Infos findest du übrigens ganz leicht, indem du der URL folgst, die jeder ordentliche Bot in deinem Zugriffsprotokoll hinterlässt; bei Slurp wäre das „Mozilla/5.0 (compatible; Yahoo! Slurp/3.0;
https://help.yahoo.com/help/us/ysearch/slurp)“.