Wer hat behauptet, dass ein Spider die Seiten großartig parsen und verarbeiten muss? Den Quelltext zum Rohtext runterrendern und ein paar Wörter extrahieren kann ein vorkompiliertes PHP-Skript mit RegEx auch sehr schnell.WWWeasel hat geschrieben:Falsch. Die Internet-Anbindung stellt da überhaupt kein Problem dar. CPU-Leistung (zum Parsen und Verarbeiten der Seiten) und Festplattenzugriffe (bei der Indexerstellung) sind bei wirklich großen Datenmengen das Problem.
Wenn ein Spider mehr als das macht (->Indexerstellung z. B.), liegt ein Designfehler vor.
Gruß,
SloMo