Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
Ich möchte hierzu kurz anmerken, dass wir immer erst warten, bis eine Seite komplett geladen ist und erst danach die nächste Seite abrufen. Auch werten wir die Antwortzeiten jedes Requests aus - sollten die stark ansteigen, reduzieren wir die Crawlrate automatisch oder stoppen den Crawl dieser Domain sogar komplett.Synonym hat geschrieben:Der Crawler jagt nun also schon seit heute Nacht über meine Seite und ruft so 3-6 Seiten pro Sekunde ab. Der scheint aber aber auch nicht zu warten bis die Seite fertig ist, denn so schnell sind die teilweise nicht.
Hallo Johannes,Ich möchte hierzu kurz anmerken, dass wir immer erst warten, bis eine Seite komplett geladen ist und erst danach die nächste Seite abrufen. Auch werten wir die Antwortzeiten jedes Requests aus - sollten die stark ansteigen, reduzieren wir die Crawlrate automatisch oder stoppen den Crawl dieser Domain sogar komplett.
Ja das ist aber nicht gut - sorry, wenn ich das so sage. Ihr werdet ja mit den Daten wohl irgendetwas machen, also sollten die ja auch passen, oder? Was macht Ihr denn dann, wenn es eine Seite gar nicht gibt - Fehler 404? In meinem Fall gab es die Seiten alle. Die mussten eigentlich immer langsamer werden, den die Serverlast stieg enorm. Ich habe es ja auch gesehen auf dem Server. Da war der eine Request noch nicht mal fertig, standen schon zwei drei andere in der Warteschleife.Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert, bis die ersten Bytes von Deinem Server geliefert werden und wie lange es insgesamt gedauert hat, die komplette Seite zu laden. Wenn diese beiden Zeiten entweder stark zunehmen oder absolut über gewissen Grenzwerten liegen, fahren wir den Crawldurchlauf für Deine Seite zurück oder stellen ihn ganz ein.
Ihr bei SISTRIX habt einen veritablen Schaden und all eure IP's werden jetzt mal schön von gebannt bei mir.SISTRIX hat geschrieben:Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert, bis die ersten Bytes von Deinem Server geliefert werden und wie lange es insgesamt gedauert hat, die komplette Seite zu laden. Wenn diese beiden Zeiten entweder stark zunehmen oder absolut über gewissen Grenzwerten liegen, fahren wir den Crawldurchlauf für Deine Seite zurück oder stellen ihn ganz ein.
Shredder, wir halten uns an die RFC-Vorschläge zur Robots.txt. Wenn Du mir Deine Domain nennst (gerne auch per PM), schauen wir uns gerne genauer an, ob da etwas schief gelaufen ist.
Gruß,
Johannes
Was für ein Kappes.SISTRIX hat geschrieben:Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert,