Weil PDF und Webseite identischen Inhalt haben. Bei der Berechnung von DC werden die einzelnen Dokumente in Shingles zerteilt und danach wird (Schnittmenge / Vereiningungsmenge) gerechnet. Ein Berechnungsbeispiel findest du auf
https://www.mywebsolution.de/artikel/20 ... ntent.html unten.
Es gibt noch eine erweiterte Variante, bei der auch das sog. containment behandelt wird (Schnittmenge / Menge von Dokument 1) Wenn das PDF den Auszug der Webversion vollständig enthält, ist diese Gleichung = 1 (was 100%igem Containment entspricht).
Beide Verfahren werden in diesem Paper von Andrei Broder vorgestellt:
https://ksuseer1.ist.psu.edu/viewdoc/su ... 1.1.24.779
Ich kann mir nicht vorstellen, dass PDF Dokumente da eine Sonderstellung einnehmen, sonst kannst du ja zu auch einfach fremde PDFs nach HTML übersetzen und auf deiner Seite anzeigen.