Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Suche gute Spidersoftware

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 25.07.2005, 15:09

WWWeasel hat geschrieben:Falsch. Die Internet-Anbindung stellt da überhaupt kein Problem dar. CPU-Leistung (zum Parsen und Verarbeiten der Seiten) und Festplattenzugriffe (bei der Indexerstellung) sind bei wirklich großen Datenmengen das Problem.
Wer hat behauptet, dass ein Spider die Seiten großartig parsen und verarbeiten muss? Den Quelltext zum Rohtext runterrendern und ein paar Wörter extrahieren kann ein vorkompiliertes PHP-Skript mit RegEx auch sehr schnell.

Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.

Gruß,
SloMo

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

KeepCool
PostRank 8
PostRank 8
Beiträge: 715
Registriert: 02.01.2004, 11:55

Beitrag von KeepCool » 25.07.2005, 15:23

@SloMo
Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.
Nicht ganz richtig...Ein Spider sollte z.B. mindestens in der Lage sein das "Last Modified" (allg. Header-Daten) abzuwägen, damit er Seiten die sich - seit dem letzten Visit - nicht geändert haben NICHT sinnlos "heimschleppt"...Bei grossen Datenmengen, durchaus wichtig...Mit der eigentlichen Verarbeitung der Daten, sollte ein Spider allerdings nichts zu tun haben...;-)

Gruss,

KC

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 25.07.2005, 18:58

Hallo
KeepCool hat geschrieben: Nicht ganz richtig...Ein Spider sollte z.B. mindestens in der Lage sein das "Last Modified" (allg. Header-Daten) abzuwägen, damit er Seiten die sich - seit dem letzten Visit - nicht geändert haben NICHT sinnlos "heimschleppt"
Nicht ganz richtig.
Der Bot sollte IF_MODIFIED_SINCE + Datum des letzen Spiderns der Seite im Header mitschicken und anschließend am 304 erkennen wenn er nichts holen braucht.

Gruß Kristian
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

WWWeasel
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.07.2005, 10:47

Beitrag von WWWeasel » 25.07.2005, 19:05

Der Bot sollte IF_MODIFIED_SINCE + Datum des letzen Spiderns der Seite im Header mitschicken und anschließend am 304 erkennen wenn er nichts holen braucht.
Soweit die Theorie. Leider habe ich aber in der Vergangenheit schon Server erlebt bei denen das dann nicht zum gewünschten Ergebnis geführt hat. Das Problem lag damals wohl darin, dass die gewünschte URL ein Skript war und dynamischen Content eingebunden hat. Der Server hat das If-Modified-Since aber wohl auf den Skript-Code bezogen (der möglicherweise steinalt ist und somit unverändert) und nicht auf den dynamischen Content (der ja immer funkelnagelneu ist). Ich weiß allerdings nicht, ob sowas heute immer noch passiert.

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 25.07.2005, 19:31

Hallo WWWeasel
Du denkst auch an die Möglichkeit, dass der Coder des Scripts nicht dumm war und sein Script mit der Möglichkeit versehen hat auf IF_MODIFIED_SINCE zu reagieren.
Ich könnte mir vorstellen, dass es Leute gibt, die sowas machen um die Dynamik ihrer Anwendung zu verschleiern, meist wohl in Verbindung mit mod_rewrite.
Ich denke mal, man sollte sich an die Regeln (RFC) halten und nicht auf die Bugs irgendwelcher Server oder solche "Machenschaften" reagieren.
Gruß Kristian
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

KeepCool
PostRank 8
PostRank 8
Beiträge: 715
Registriert: 02.01.2004, 11:55

Beitrag von KeepCool » 26.07.2005, 08:45

@Kristian
Du denkst auch an die Möglichkeit, dass der Coder des Scripts nicht dumm war und sein Script mit der Möglichkeit versehen hat auf IF_MODIFIED_SINCE zu reagieren.
Grundsätzlich hast Du Recht, hantiert man allerdings zusätzlich noch mit mod_gzip und/oder caching, wird es vermutlich keine 1 % der Webmaster geben, die hierzu (technisch) in der Lage ist.
Die Geschichte mit dem IF_MODIFIED_SINCE + 304 scheitert leider oftmals an der mangelhaften Konfiguration der Server, was für die SUMAs nicht gerade gut ist, denn so entsteht "unnötiger" Traffic...;-)

Das was Du als "Machenschaften" (beispielsweise die reelle Ausgabe des /Last-Modified/ oder /Content-Length/ im Header auch bei dynamisch generierten Seiten) bezeichnest, könnte - neben Einsatz von z.B. mod_gzip - den Suchmaschinen etliches an Kapazität ersparen.

Vermutet ein SUMA-Spider hinter eine Header-Ausgabe eine Manipulation, besteht technisch die Möglichkeit, die betreffende Seite mit HEAD statt GET aufzurufen, da fliegt noch Manches auf...allerdings macht das Alles keinen Sinn, denn davon (Header-Machenschaften) profitiert maximal eine Suchmaschine...:-):-):-)

@wweasel

Seiten / Verzeichnisse die per Disallow in der robots.txt für eine SUMA Tabu sind, dürften erst gar nicht in den Index gelangen, ist die komplette Seite Tabu ("/") grenzt es schon an Stümperhaftigkeit (oder halbseidener Absicht?) die Seiten zu crawlen und zu indexieren...Bevor Du Dir Gedanken zu der Definition einer Suchmaschine machst, solltest Du schon mal mit dieser "Kleinigkeit" anfangen...;-)

Gruss,

KC

WWWeasel
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.07.2005, 10:47

Beitrag von WWWeasel » 26.07.2005, 10:13

@KeepCool

Ich hatte im Thread zum WWWeasel-Robot schon geschrieben, dass die Beachtung der robots.txt ganz oben auf meiner To-Do Liste steht. Diese Woche bin ich noch mit einer kleinen Ranking-Verbesserung beschäftigt, aber dann gehts an die Beachtung der robots.txt.

Der nächste Crawler-Lauf (kommt wohl frühestens in 2 Wochen) wird die robots.txt beachten.

KeepCool
PostRank 8
PostRank 8
Beiträge: 715
Registriert: 02.01.2004, 11:55

Beitrag von KeepCool » 26.07.2005, 10:48

@WWWeasel
...dass die Beachtung der robots.txt ganz oben auf meiner To-Do Liste steht
Ganz oben ist ganz gut, zu allererst wäre besser (gewesen) ;-)

BTW: Vergiss nicht ein URL-Removal-Tool, es macht sich derzeit nicht schlecht, wenn man als "Google-Killer" versucht, den Wunsch der Webmaster hinsichtlich der Entfernung ihrer Websites aus Deiner SUMA zu respektieren...von der Tatsache, dass es - rechtlich gesehen - zukunftsweisend sein könnte, mal ganz abgesehen; Abmahnungen und EVs könnten einem aufstrebenden Suchmaschinen-Betreiber gleich am Anfang seiner zukunftsträchtigen Karriere die eine oder andere kleine Schwierigkeit bereiten...vorhandene Liquidität wird ja schliesslich für Softwareentwicklung und Grid-Computing benötigt... :-):-):-)

Gruss und viel Erfolg !

KC

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag