Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Suche gute Spidersoftware

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 25.07.2005, 15:09

WWWeasel hat geschrieben:Falsch. Die Internet-Anbindung stellt da überhaupt kein Problem dar. CPU-Leistung (zum Parsen und Verarbeiten der Seiten) und Festplattenzugriffe (bei der Indexerstellung) sind bei wirklich großen Datenmengen das Problem.
Wer hat behauptet, dass ein Spider die Seiten großartig parsen und verarbeiten muss? Den Quelltext zum Rohtext runterrendern und ein paar Wörter extrahieren kann ein vorkompiliertes PHP-Skript mit RegEx auch sehr schnell.

Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.

Gruß,
SloMo

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

KeepCool
PostRank 8
PostRank 8
Beiträge: 715
Registriert: 02.01.2004, 11:55

Beitrag von KeepCool » 25.07.2005, 15:23

@SloMo
Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.
Nicht ganz richtig...Ein Spider sollte z.B. mindestens in der Lage sein das "Last Modified" (allg. Header-Daten) abzuwägen, damit er Seiten die sich - seit dem letzten Visit - nicht geändert haben NICHT sinnlos "heimschleppt"...Bei grossen Datenmengen, durchaus wichtig...Mit der eigentlichen Verarbeitung der Daten, sollte ein Spider allerdings nichts zu tun haben...;-)

Gruss,

KC

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 25.07.2005, 18:58

Hallo
KeepCool hat geschrieben: Nicht ganz richtig...Ein Spider sollte z.B. mindestens in der Lage sein das "Last Modified" (allg. Header-Daten) abzuwägen, damit er Seiten die sich - seit dem letzten Visit - nicht geändert haben NICHT sinnlos "heimschleppt"
Nicht ganz richtig.
Der Bot sollte IF_MODIFIED_SINCE + Datum des letzen Spiderns der Seite im Header mitschicken und anschließend am 304 erkennen wenn er nichts holen braucht.

Gruß Kristian
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.