Seite 1 von 2

Erfahrungen mit "SISTRIX Crawler" ??

Verfasst: 31.07.2011, 09:29
von Synonym
Hallo zusammen,

da das ja durchaus eine bekannte Firma / Software ist wollte ich mal fragen, was eure Erfahrungen mit den Crawler sind bzw. ob Ihr wisst, was der denn genau macht.

Hintergrund ist, dass heute Nacht um 4:32 mein Handy meinte es müsse mich mit lauter Warn-SMS aus dem Schlaf hohlen. Server down - Nicht der Webserver, sondern der Datenbank-Server und damit alle meine Webseiten.

Gut, das hatte sich wenige Minuten später wieder beruhigt, doch nun prüfe ich schon seit Stunden meine Logfiles. Das einzige was mir da auffällt ist der

"compatible; SISTRIX Crawler; https://crawler.sistrix.net/"

Der kam kurz vor dem Zusammenbruch, ist bis jetzt durchgehend da und belegt 3 Apache-Prozesse (99% CPU Last). Ok, nicht weiter schlimm, kann ja mal hängen. Doch nix da. Apache neu gestartet und sofort wieder. Ein Prozess - 70% CPU Last.

Der Crawler jagt nun also schon seit heute Nacht über meine Seite und ruft so 3-6 Seiten pro Sekunde ab. Der scheint aber aber auch nicht zu warten bis die Seite fertig ist, denn so schnell sind die teilweise nicht.

So, nun stelle ich mir die Frage: Was tun? Laufen lassen? Sperren? Gibt es ein Delay (hab nichts gefunden)?

Verfasst:
von

Verfasst: 31.07.2011, 10:11
von Malte Landwehr
Wenn du weißt wer/was Sistrix ist verstehe ich nicht warum du den Crawler nicht einfach sperrst. Hast du irgend einen Mehrwert davon, dass Sistrix auf deine Seite darf? Nein.

Verfasst: 31.07.2011, 10:14
von Synonym
Hast du irgend einen Mehrwert davon, dass Sistrix auf deine Seite darf? Nein.
Genau das war ja eine meiner Fragen ;-)

Verfasst:
von




Erfolgreiche und optimale Nutzung mit Magento Shopsystemen! Nutzen Sie unsere jahrelange Erfahrung mit Magento Shopsystemen und lassen Sie sich beraten!


Lesen Sie die wichtigsten Magento-Optimierungsmaßnahmen oder kontaktieren Sie uns direkt unter: 0511 / 300325-0


Verfasst: 31.07.2011, 10:28
von 3rr0r
den Sistrix sehe ich erst lurze Zeiot si aktib wie aktuell.
Bisher nicht reagiert - nun müßte ich den auch sperren.

Nur ich denke das manche Leute mit denen man linkmä0zg was macht, die Sixtrix Tools nutzen. Dabb könnte der Eindruck entstehen, das meine Links nicht gut sind, weil die dort nicht auftaucnen ...

Zwischenlösung ist im Moment, das der nur auf die Seiten darf wo ich Links setze.

Re: Erfahrungen mit "SISTRIX Crawler" ??

Verfasst: 31.07.2011, 19:15
von SISTRIX
Hi Synonym,
Synonym hat geschrieben:Der Crawler jagt nun also schon seit heute Nacht über meine Seite und ruft so 3-6 Seiten pro Sekunde ab. Der scheint aber aber auch nicht zu warten bis die Seite fertig ist, denn so schnell sind die teilweise nicht.
Ich möchte hierzu kurz anmerken, dass wir immer erst warten, bis eine Seite komplett geladen ist und erst danach die nächste Seite abrufen. Auch werten wir die Antwortzeiten jedes Requests aus - sollten die stark ansteigen, reduzieren wir die Crawlrate automatisch oder stoppen den Crawl dieser Domain sogar komplett.

Du kannst mir aber gerne den Hostnamen mal schicken, dann schauen wir uns das genauer an, ob da etwas schiefgelaufen ist.

Gruß,
Johannes

Verfasst:
von

Verfasst: 07.08.2011, 09:34
von Shredder
Anzeige läuft. Ihr habt mir meinen Shop lahmgelegt.

Verfasst: 07.08.2011, 10:06
von 007
Gegen deinen Hoster, weil er dir einen C64 als Server aufgesetzt hat? Oder gegen die Macher von Magento bzw. xtCommerce, weil die so ein "ressourcenschonendes" System gebastelt haben?

Verfasst: 07.08.2011, 10:50
von Synonym
Ich möchte hierzu kurz anmerken, dass wir immer erst warten, bis eine Seite komplett geladen ist und erst danach die nächste Seite abrufen. Auch werten wir die Antwortzeiten jedes Requests aus - sollten die stark ansteigen, reduzieren wir die Crawlrate automatisch oder stoppen den Crawl dieser Domain sogar komplett.
Hallo Johannes,

ich habe die Antwort leider eben erst gesehen, daher erst jetzt eine Antwort. Der Spider war noch einige Tage lang unterwegs, aber es gab keine Ausfälle mehr. Was jetzt gerade ist weiß ich gar nicht. Allerdings kann ich das mit der Auswertung gar nicht wirklich glauben. 3-6 Zugriffe pro Sekunde (gleiche IP) auf Seiten, die definitiv nicht so schnell laden können. 1-3 pro Sek wäre denkbar, aber bei 6 pro Sekunde, das wäre neuer Geschwindigkeitsrekord meines Servers. Ist ja auch nicht so, dass der da alleine unterwegs war, der normale Traffik war ja auch drauf.

Und warum ich das "Auswerten" auch nicht glauben kann: Es geht ja wohl über den Statuscode, den die Seite sendet, oder? Also sollte man doch auch einen Fehler 404 beachten bzw. eben wie bei mir einen "503 Service Temporarily Unavailable". Das hat den Bot aber so gar nicht interessiert, der machte da schön schnell weiter. Bezüglich den Antwortzeiten kann ich nichts mehr sagen, aber müssten extrem schlecht gewesen sein (vor dem Absturz), denn knapp 99% CPU Last und Load-Werte jenseits 10.0 sind sicherlich nicht sonderlich schnell.

Aber wie gesagt, aktuell gibt es wieder keine Probleme. Wenn es wieder welche geben sollte, dann schreibe ich direkt eine PM.

Gruß, Ingo

Verfasst: 07.08.2011, 12:52
von Shredder
Robottxt wird ignoriert.
3-6 Zugriffe kann ich bestätigen.

Verfasst: 08.08.2011, 09:30
von SISTRIX
Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert, bis die ersten Bytes von Deinem Server geliefert werden und wie lange es insgesamt gedauert hat, die komplette Seite zu laden. Wenn diese beiden Zeiten entweder stark zunehmen oder absolut über gewissen Grenzwerten liegen, fahren wir den Crawldurchlauf für Deine Seite zurück oder stellen ihn ganz ein.

Shredder, wir halten uns an die RFC-Vorschläge zur Robots.txt. Wenn Du mir Deine Domain nennst (gerne auch per PM), schauen wir uns gerne genauer an, ob da etwas schief gelaufen ist.

Gruß,
Johannes

Verfasst: 09.08.2011, 07:43
von Synonym
Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert, bis die ersten Bytes von Deinem Server geliefert werden und wie lange es insgesamt gedauert hat, die komplette Seite zu laden. Wenn diese beiden Zeiten entweder stark zunehmen oder absolut über gewissen Grenzwerten liegen, fahren wir den Crawldurchlauf für Deine Seite zurück oder stellen ihn ganz ein.
Ja das ist aber nicht gut - sorry, wenn ich das so sage. Ihr werdet ja mit den Daten wohl irgendetwas machen, also sollten die ja auch passen, oder? Was macht Ihr denn dann, wenn es eine Seite gar nicht gibt - Fehler 404? In meinem Fall gab es die Seiten alle. Die mussten eigentlich immer langsamer werden, den die Serverlast stieg enorm. Ich habe es ja auch gesehen auf dem Server. Da war der eine Request noch nicht mal fertig, standen schon zwei drei andere in der Warteschleife.

Wenn Ihr den Status aber nicht auswertet, dann kam hier nun ein ganz dummer Fall dazu. Mein Server ging auf 503. In dem Fall wird nur noch ein kurzer Hinweis ausgeliefert. Keine Funktionen / Scripte mehr, keine DB, nichts dynamisches. Das bedeutet aber, dass dann die Auslieferung sehr schnell geworden sein müsste, da ja quasi "fast keine" Daten gesendet werden müssen (nur 1024 Zeichen). Ihr empfangt dann also eine Seite, die Inhaltlich nichts hat außer die Meldung, die müsste extrem schnell sein und der Spider dementsprechend die Geschwindigkeit eventuell sogar noch erhöhen.

Mein Server geht dann wieder mal online und versucht es wieder. Tat er mehrfach. Das dauerte dann jeweils 10-20 Requests und er ging sofort wieder auf 503.

So ging das Spiel dann über Stunden, bis ich die Prozesse identifiziert und die entsprechenden Apache-Prozesse gekillt hatte. Dauerte dann aber auch nur wenige Sekunden und die waren wieder am Anschlag - und die bearbeiteten nur euren Spider. Allerdings war das danach denn nur ein Prozess und nicht mehr drei. Den habe ich dann laufen lassen.

Gruß, Ingo

Verfasst: 01.04.2013, 15:33
von bodomalo
SISTRIX hat geschrieben:Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert, bis die ersten Bytes von Deinem Server geliefert werden und wie lange es insgesamt gedauert hat, die komplette Seite zu laden. Wenn diese beiden Zeiten entweder stark zunehmen oder absolut über gewissen Grenzwerten liegen, fahren wir den Crawldurchlauf für Deine Seite zurück oder stellen ihn ganz ein.

Shredder, wir halten uns an die RFC-Vorschläge zur Robots.txt. Wenn Du mir Deine Domain nennst (gerne auch per PM), schauen wir uns gerne genauer an, ob da etwas schief gelaufen ist.

Gruß,
Johannes
Ihr bei SISTRIX habt einen veritablen Schaden und all eure IP's werden jetzt mal schön von gebannt bei mir.
Meinen Server zu bombardieren mit Anfragen im 2 sek. Takt - sag mal hackts bei euch? Meint ihr der Traffic ist heutzutage vollkommen umsonst oder wie. Irre was sich manche Firmen einbilden.

Ihr seid eine Spambombe, mehr nicht.

Verfasst: 01.04.2013, 23:35
von MeNoZony
SISTRIX hat geschrieben:Ingo, die Auswertung läuft nicht über den Statuscode der Seite, sondern über die Antwortgeschwindigkeit. Wir messen also, wie lange es dauert,
Was für ein Kappes.
Es soll Maschinen geben, auf denen mehr als eine Domain gehostet wird und wenn da gleich mehrere Domains auf einer Maschine gleichzeitig beglückt werden, dann wird es eng- zumal das ja nicht die einzigen Datensammler sind, die abgreifen als gäb's kein Morgen. Und meine Erfahrungen mit den Datensammlern sind dergestalt, daß da niemand "wartet": es wird vielmehr brutalstmöglich durchgezogen.
Insbesondere dann, wenn viele WP-Domains auf einer Maschine vorhanden sind geht das stark in Richtung DOS-Attacke, zumal die meisten diesen Kram nicht brauchen oder wollen.
Ich kann nur empfehlen, die Blöcke komplett zuzumachen, insbesondere alles aus dem Hetzner-Netzwerk.
Von da kommen nur Sauger ohne jeden Nutzen.

Verfasst: 02.04.2013, 10:02
von mwitte
Meint Ihr nicht, dass der Sistrix Support da der richtige Ansprechpartner wäre?!

Verfasst: 02.04.2013, 15:03
von MeNoZony
Ziemlich schräge Ansicht für einen Moderator, in dessen Forum sich Leute über Fragen des Internet austauschen und auf Fehlentwicklungen hinweisen.
Konsequenterweise machst Du das Forum am besten dicht und stellst nur noch die eMail-Adressen des Supports von Google, Amazon etc. hier ein.
Ach ja, und von Sistrix, natürlich.
Die ändern dann auf Anfrage sofort ihre Praxis, wie man ja seit deren Posting aus 2011 unschwer sehen kann...:roll: