Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Wie der dup.Content-Filter wirklich (???) funktioniert

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 09.03.2006, 11:51

oldInternetUser hat geschrieben:Tja, jetzt müssen wir einmal elementarste Begriffsklärungen machen:

Ein Hashwert einer Datei ändert sich drastisch, wenn sich nur ein einziges Byte der Datei ändert. Das ist ideal, wenn die Datei bsp. komprimiert (MP3 komprimiert auch) ist, da ein geändertes Byte die Datei meistens zerstört.
Richtig, Martin Ice meinte Checksummen. Man könnte zu jeder Seite eine Art Fingerabdruck bestehend aus den Checksummen markanter Bereiche erzeugen. Ähnliche Fingerabdrücke würden dann auf einen DC hindeuten.

Die Erzeugung und der Vergleich solcher Checksummen lassen sehr viel Spielraum. Was z.B. wäre ein markanter Bereich. Ab wann wäre eine Seite ähnlich genug, um aus dem Index entfernt zu werden?

Wahrscheinlich ist es eine Kombination aus verschiedenen Verfahren, unter anderem auch Keywordmengen-Vergleich und Checksummen.