Suche gute Spidersoftware

Beitrag von **SloMo** » 25.07.2005, 15:09

WWWeasel hat geschrieben:Falsch. Die Internet-Anbindung stellt da überhaupt kein Problem dar. CPU-Leistung (zum Parsen und Verarbeiten der Seiten) und Festplattenzugriffe (bei der Indexerstellung) sind bei wirklich großen Datenmengen das Problem.

Wer hat behauptet, dass ein Spider die Seiten großartig parsen und verarbeiten muss? Den Quelltext zum Rohtext runterrendern und ein paar Wörter extrahieren kann ein vorkompiliertes PHP-Skript mit RegEx auch sehr schnell.

Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.

Gruß,
SloMo

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **KeepCool** » 25.07.2005, 15:23

@SloMo

Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.

Nicht ganz richtig...Ein Spider sollte z.B. mindestens in der Lage sein das "Last Modified" (allg. Header-Daten) abzuwägen, damit er Seiten die sich - seit dem letzten Visit - nicht geändert haben NICHT sinnlos "heimschleppt"...Bei grossen Datenmengen, durchaus wichtig...Mit der eigentlichen Verarbeitung der Daten, sollte ein Spider allerdings nichts zu tun haben...

Gruss,

KC

Beitrag von **Kristian** » 25.07.2005, 18:58

Hallo

KeepCool hat geschrieben: Nicht ganz richtig...Ein Spider sollte z.B. mindestens in der Lage sein das "Last Modified" (allg. Header-Daten) abzuwägen, damit er Seiten die sich - seit dem letzten Visit - nicht geändert haben NICHT sinnlos "heimschleppt"

Nicht ganz richtig.
Der Bot sollte IF_MODIFIED_SINCE + Datum des letzen Spiderns der Seite im Header mitschicken und anschließend am 304 erkennen wenn er nichts holen braucht.

Gruß Kristian

von **Anzeige von ABAKUS** »

Beitrag von **WWWeasel** » 25.07.2005, 19:05

Der Bot sollte IF_MODIFIED_SINCE + Datum des letzen Spiderns der Seite im Header mitschicken und anschließend am 304 erkennen wenn er nichts holen braucht.

Soweit die Theorie. Leider habe ich aber in der Vergangenheit schon Server erlebt bei denen das dann nicht zum gewünschten Ergebnis geführt hat. Das Problem lag damals wohl darin, dass die gewünschte URL ein Skript war und dynamischen Content eingebunden hat. Der Server hat das If-Modified-Since aber wohl auf den Skript-Code bezogen (der möglicherweise steinalt ist und somit unverändert) und nicht auf den dynamischen Content (der ja immer funkelnagelneu ist). Ich weiß allerdings nicht, ob sowas heute immer noch passiert.

Beitrag von **Kristian** » 25.07.2005, 19:31

Hallo WWWeasel
Du denkst auch an die Möglichkeit, dass der Coder des Scripts nicht dumm war und sein Script mit der Möglichkeit versehen hat auf IF_MODIFIED_SINCE zu reagieren.
Ich könnte mir vorstellen, dass es Leute gibt, die sowas machen um die Dynamik ihrer Anwendung zu verschleiern, meist wohl in Verbindung mit mod_rewrite.
Ich denke mal, man sollte sich an die Regeln (RFC) halten und nicht auf die Bugs irgendwelcher Server oder solche "Machenschaften" reagieren.
Gruß Kristian

Beitrag von **KeepCool** » 26.07.2005, 08:45

@Kristian

Du denkst auch an die Möglichkeit, dass der Coder des Scripts nicht dumm war und sein Script mit der Möglichkeit versehen hat auf IF_MODIFIED_SINCE zu reagieren.

Grundsätzlich hast Du Recht, hantiert man allerdings zusätzlich noch mit mod_gzip und/oder caching, wird es vermutlich keine 1 % der Webmaster geben, die hierzu (technisch) in der Lage ist.
Die Geschichte mit dem IF_MODIFIED_SINCE + 304 scheitert leider oftmals an der mangelhaften Konfiguration der Server, was für die SUMAs nicht gerade gut ist, denn so entsteht "unnötiger" Traffic...

Das was Du als "Machenschaften" (beispielsweise die reelle Ausgabe des /Last-Modified/ oder /Content-Length/ im Header auch bei dynamisch generierten Seiten) bezeichnest, könnte - neben Einsatz von z.B. mod_gzip - den Suchmaschinen etliches an Kapazität ersparen.

Vermutet ein SUMA-Spider hinter eine Header-Ausgabe eine Manipulation, besteht technisch die Möglichkeit, die betreffende Seite mit HEAD statt GET aufzurufen, da fliegt noch Manches auf...allerdings macht das Alles keinen Sinn, denn davon (Header-Machenschaften) profitiert maximal eine Suchmaschine...

:-):-)

@wweasel

Seiten / Verzeichnisse die per Disallow in der robots.txt für eine SUMA Tabu sind, dürften erst gar nicht in den Index gelangen, ist die komplette Seite Tabu ("/") grenzt es schon an Stümperhaftigkeit (oder halbseidener Absicht?) die Seiten zu crawlen und zu indexieren...Bevor Du Dir Gedanken zu der Definition einer Suchmaschine machst, solltest Du schon mal mit dieser "Kleinigkeit" anfangen...

Gruss,

KC

Beitrag von **WWWeasel** » 26.07.2005, 10:13

@KeepCool

Ich hatte im Thread zum WWWeasel-Robot schon geschrieben, dass die Beachtung der robots.txt ganz oben auf meiner To-Do Liste steht. Diese Woche bin ich noch mit einer kleinen Ranking-Verbesserung beschäftigt, aber dann gehts an die Beachtung der robots.txt.

Der nächste Crawler-Lauf (kommt wohl frühestens in 2 Wochen) wird die robots.txt beachten.

Beitrag von **KeepCool** » 26.07.2005, 10:48

@WWWeasel

...dass die Beachtung der robots.txt ganz oben auf meiner To-Do Liste steht

Ganz oben ist ganz gut, zu allererst wäre besser (gewesen)

BTW: Vergiss nicht ein URL-Removal-Tool, es macht sich derzeit nicht schlecht, wenn man als "Google-Killer" versucht, den Wunsch der Webmaster hinsichtlich der Entfernung ihrer Websites aus Deiner SUMA zu respektieren...von der Tatsache, dass es - rechtlich gesehen - zukunftsweisend sein könnte, mal ganz abgesehen; Abmahnungen und EVs könnten einem aufstrebenden Suchmaschinen-Betreiber gleich am Anfang seiner zukunftsträchtigen Karriere die eine oder andere kleine Schwierigkeit bereiten...vorhandene Liquidität wird ja schliesslich für Softwareentwicklung und Grid-Computing benötigt...

:-):-)

Gruss und viel Erfolg !

KC