ab wann spricht man von "duplicate Content"??

Beitrag von **Beasthunter** » 05.09.2005, 07:37

Hallo!

Ab welcher Ähnlichkeit erkennt G**gle einen Text als duplicate Content???

Ich habe gelesen, dass G**gle sich nur eine Prüfsumme des Textes speichert.

Wenn ich also das KW im Text gegen ein anderes tausche, passt das dann schon????(oder andere, passende Begriffe)

z.B.:
Die Erde dreht sich weiter -> Die Welt dreht sich weiter

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **rechtlegal** » 05.09.2005, 07:42

Da wird viel spekuliert, die Meinungen gehen - auch hier - weit auseinander. Am besten die Suchfunktion nutzen und versuchen, Dir ein eigenes Bild zu machen.

Beitrag von **SebaF** » 05.09.2005, 08:42

Bei google werden ja häufig nur ein paar Seiten gelistet und dann kommt der Link "übersprungene Ergebnisse wiederholen".

Kann es sein, dass Google diese Seiten bereits als duplicate content wertet?

von **Anzeige von ABAKUS** »

Beitrag von **buttheads** » 05.09.2005, 09:35

Beitrag von **SebaF** » 05.09.2005, 09:46

hm, das ist merkwürdig. Dann bemisst Google der Description sehr viel Wert zu.
Ich habe mehrere Seiten, wo der Content wirklich ganz unterschiedlich ist.
Aber die Description ist gleich, da diese in alle Seiten eingebunden wird.

Wenn dies Duplicate content ist, dann reicht es nicht, einfach nur ein Wort (auch das Hauptkeywort) in der Description auszutauschen!

Beitrag von **bydlo** » 05.09.2005, 10:09

SebaF hat geschrieben:Bei google werden ja häufig nur ein paar Seiten gelistet und dann kommt der Link "übersprungene Ergebnisse wiederholen".

Kann es sein, dass Google diese Seiten bereits als duplicate content wertet?

definitiv NEIN

Beitrag von **rechtlegal** » 05.09.2005, 10:11

bydlo hat geschrieben:definitiv NEIN

Stimmt, def. Nein.

Da hat buttheads sicher etwa missverstanden.

Beitrag von **buttheads** » 05.09.2005, 10:33

Hmm ... kann sein, das ich da was missverstanden habe.

Was allerdings sicher ist, ist das "zusätzliche Seiten" wenn überhaupt dann nur am bitteren Ende er Serps auftauchen.
Wenns "starke Seiten" (höherer PR) sind, siehst Du bei den Übersprungenen Ergebnissen relativ fix nur noch URLs bei der Site-Abfrage, bevor sie dann ganz verschwinden. Die Seiten sind halt nur "zusätzlich" und nicht besonders wichtig...

Wo ich mich verlesen hab ist in jedem Fall bei der Frage, ob das ein "DC" problem ist. Soweit ich gesehen habe kann die Ursache dafür an unterschiedlichen Ursachen liegen, Doppelter Content ist nur eine davon. Dem "definitiv Nein" meiner Vorposter kann ich mich deshalb nicht anschließen, weil die Frage war:

Kann es sein, dass Google diese Seiten bereits als duplicate content wertet?

... und es kann definitiv so sein. Allerdings muss es nicht so sein, das DC die Ursache ist.

Wenn große Teile der wichtigen Seiten einer Webseite nur als "zusätzliche ergebnisse" auftauchen sollte man sich in jedem Fall mal Gedanken machen, warum das so ist und wie man das abstellen kann, denn ein Anzeichen dafür, das die Domain gesund und Stark ist ist eine hohe Anzahl von "zusätzlichen Ergebnissen" nicht.

Beitrag von **rechtlegal** » 05.09.2005, 10:39

buttheads hat geschrieben:Wenn große Teile der wichtigen Seiten einer Webseite nur als "zusätzliche ergebnisse" auftauchen sollte man sich in jedem Fall mal Gedanken machen, warum das so ist und wie man das abstellen kann, denn ein Anzeichen dafür, das die Domain gesund und Stark ist ist eine hohe Anzahl von "zusätzlichen Ergebnissen" nicht.

@buttheads
Hast Du hierzu vielleicht irgendeinen Erfahrungswert, irgendeine Prozentangabe?

Ich komme bei meiner Seite - aber nur bei der site-Abfrage - auf knapp 20% "zusätzliche Ergebnisse".

Beitrag von **Airport1** » 05.09.2005, 10:50

Muss man wohl recht Algorithmus-maessig denken um nachzuvollziehen wie der DupCon Filter laeuft oder laufen koennte. Moi wuerde erstmal alle Woerter wegstemmen, die immer und immer vorkommen, im deutschen z.B. und,der,die,das,wobei,warum,wozu,weshalb... Dann wuerde ich das Restliche in zusammenhaengende Textteilchen gliedern (z.B. nach Satzende, nach Formatierung, Gliederung...). Diese Teilchen wuerden dann mit anderen Teilchen anderer Seiten verglichen werden. Ist nun die Aehnlichkeit (nicht die Gleichheit) frappierend hoch bzw. ueber einem gewissen Schwellwert heisst es: DupCon detected! Das ist wahrscheinlich sehr stark vereinfacht gedacht und der echte Algo wird einiges aufwaendiger sein... vielleicht lieg ich auch voellig daneben, darf dies aber da ich mir SEO nicht auf die Fahnen schreibe *fg*

Beitrag von **buttheads** » 05.09.2005, 11:07

ich denke mal, Prozente sind da nicht so wichtig. Gerade bei dynamischen Seiten scheint es fast unmöglich zu sein, 100% wirklich unique (d.h. nicht als zusätzliches Ergebniss") indexiert zu bekommen. Und bei solchen Angaben weiß man auch nicht, wieviele Seiten schon aus dem Index draußen sind (nur noch URLs oder schon gar nix mehr) Und solange deine ersten 1-2 Ebenen nicht davon betroffen sind, sollte auch nix wirklich Wichtiges fehlen.

Wenn Du Dir die Seiten anschaust, die in den "zusätzlichen Ergebnissen" auftauchen: Sind da wichtige Seiten bei ... oder z.B. nur "abschließende Buchungstools" oder sowas?
Sind es Seiten, die als "Eintrittspforten" gebastelt sind und jetzt nicht als solche funktionieren?

Grundsätzlich muss ja nicht jede Seite einer Webpräsenz im Schwerpunkt für die SuMa da sein - es gibt genügend andere Gründe, bestimmte Informationen oder bestimmte Formen einer Präsentation zu wählen.
Prüfen kannst Du auch, ob es an "simplen" Ursachen liegt, wie z.b. immer der gleichen description/title im head. Das läßt sich leicht abstellen und schaden tuts auf keinen Fall.

Wenns denn dann ein DC Problem ist - sind es Seiten, auf denen Du Presseinformationen oder Anbieterbeschreibungen 1:1 übernommen hast kannst Du immer noch überlegen, ob du umschreiben willst oer die Seiten auch ohne die Suchmaschine wichtig für Deine Domain ist ... oder einfach egal

. Sind es wirkliche Doubletten (z.B. printversion, pdf-version), sind übewiegend "Zitate" von andere (eigenen) webseiten auf der Seite ... oder werden einfach keine besonderen Inhalte gefunden (z.B.leere Katalogseiten), die eine Einordnung als "richtiges Ergebnis" rechtfertigen könnten?

Beitrag von **depp ich** » 05.09.2005, 12:00

Naja, mal ein einfaches Beispiel:
site:www.faltzelte.at
Die mit "richtigen" Titles sind die Produktseiten, die mit Größen im Titel sind die Print-Versionen, die jeweils nur von der Produktseite aufgerufen werden können.
Naturgemäß sind sich beide Versionen stellenweise sehr ähnlich. Aber das Auftreten in der Site: Abfrage ist völlig willkürlich.

Beitrag von **buttheads** » 05.09.2005, 12:25

"Willkür" gibt es bei Rechenprozessen nicht. Wir verstehen halt einen Teil des Algos da nicht.

Sperr doch die robots aus dem Print-ordner aus (im head, robots.txt oder serverseiting), dann haste da keine Verwirrung... brauchen tust Du beiden Seiten nicht für die SuMas ... die sind halt doppelt.

Beitrag von **guppy** » 05.09.2005, 12:52

Der Ansatz von airport1 weitergedacht:

So würden viele Produktseiten (zu viele)doppelten Content darstellen, also muss der Algorithmus weitergehen z.B wer verlinkt auf die Seite, wohin verlinkt die Seite - in Deutschland - identische Impress... ? Class C-netz u.s.w.
Daraus folgt, dass eine reine Textbasierte Prüfung nur ein Teil dieses Phänomens sein kann, denn das Impressum ist auf all meinen Seiten nahezu identisch und nirgendwo nur als link vorhanden.

Beitrag von **bydlo** » 05.09.2005, 12:59

buttheads hat geschrieben:
Wenn große Teile der wichtigen Seiten einer Webseite nur als "zusätzliche ergebnisse" auftauchen sollte man sich in jedem Fall mal Gedanken machen, warum das so ist und wie man das abstellen kann, denn ein Anzeichen dafür, das die Domain gesund und Stark ist ist eine hohe Anzahl von "zusätzlichen Ergebnissen" nicht.

sorry butheads aber das ist falsch.
du beziehst dich ja auf die siteabfrage (siehe oben)
wenn dem so wäre hätte abakus ca 99,96% DC
auch deine aussage zu den serps kann deswegen nicht stimmen.
auch bei meiner eigenen wie auch bei manchen sites die ich betreue haben viele seiten die unter "übrsprungene ergebnisse" gelistet werden toppositionen.
gruss axel