dc bei pdf

Beitrag von **LordOfPage** » 19.12.2010, 13:54

Ich habe vor, einen bestimmten - längeren - Text, der auf meiner Website auf mehrere html-Seiten verteilt ist, zugleich auch als pdf am Stück anzubieten.

Gibt das ein dc-Problem?

von **Anzeige von ABAKUS** »

Beitrag von **Hirnhamster** » 19.12.2010, 23:23

Beitrag von **Beate** » 05.02.2011, 10:25

Warum eigentlich?

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **Hirnhamster** » 05.02.2011, 12:49

Weil PDF und Webseite identischen Inhalt haben. Bei der Berechnung von DC werden die einzelnen Dokumente in Shingles zerteilt und danach wird (Schnittmenge / Vereiningungsmenge) gerechnet. Ein Berechnungsbeispiel findest du auf https://www.mywebsolution.de/artikel/20 ... ntent.html unten.

Es gibt noch eine erweiterte Variante, bei der auch das sog. containment behandelt wird (Schnittmenge / Menge von Dokument 1) Wenn das PDF den Auszug der Webversion vollständig enthält, ist diese Gleichung = 1 (was 100%igem Containment entspricht).

Beide Verfahren werden in diesem Paper von Andrei Broder vorgestellt: https://ksuseer1.ist.psu.edu/viewdoc/su ... 1.1.24.779

Ich kann mir nicht vorstellen, dass PDF Dokumente da eine Sonderstellung einnehmen, sonst kannst du ja zu auch einfach fremde PDFs nach HTML übersetzen und auf deiner Seite anzeigen.

Beitrag von **Beate** » 05.02.2011, 13:36

Vielen Dank für die ausführlichen Infos und den interessanten Link.

Die rss_feed.php ist dann wohl auch DC?

Worauf man alles so achten muss....seufz

Beitrag von **Hirnhamster** » 05.02.2011, 21:03

Was meinst du mit rss_feed.php?
Feed liegen normaleweise in einem XML Format vor und ranken nicht. Hier wäre eine Sonderregelung seitens Google sinnvoll.

Beitrag von **Beate** » 06.02.2011, 09:31

Die php Datei generiert den Feed, der im xml Format ausgegeben wird.

Die Inhalte der xml Datei werden also nicht indiziert, die Inhalte von pdf dagegen schon? Wo ist die Logik?

Beitrag von **Hirnhamster** » 06.02.2011, 13:40

Die Logik ist, dass PDF ein eigenständiges Format ist, das Daten für MENSCHEN lesbar aufbereitet. XML ist eine strukturierte Auszeichnungssprache, die häufig als universelles Austauschformat für Computer (etc.) benutzt wird.

Beitrag von **Beate** » 11.02.2011, 09:04

Hirnhamster, vielen Dank für deine Hilfe, du hast mir sehr geholfen.