Richtig, Martin Ice meinte Checksummen. Man könnte zu jeder Seite eine Art Fingerabdruck bestehend aus den Checksummen markanter Bereiche erzeugen. Ähnliche Fingerabdrücke würden dann auf einen DC hindeuten.oldInternetUser hat geschrieben:Tja, jetzt müssen wir einmal elementarste Begriffsklärungen machen:
Ein Hashwert einer Datei ändert sich drastisch, wenn sich nur ein einziges Byte der Datei ändert. Das ist ideal, wenn die Datei bsp. komprimiert (MP3 komprimiert auch) ist, da ein geändertes Byte die Datei meistens zerstört.
Die Erzeugung und der Vergleich solcher Checksummen lassen sehr viel Spielraum. Was z.B. wäre ein markanter Bereich. Ab wann wäre eine Seite ähnlich genug, um aus dem Index entfernt zu werden?
Wahrscheinlich ist es eine Kombination aus verschiedenen Verfahren, unter anderem auch Keywordmengen-Vergleich und Checksummen.