Duplicate Content - Texte umformulieren

Beitrag von **DonDisco** » 26.12.2007, 00:29

Gude!

Ich wollte mal fragen, ob es ausreicht Texte einfach nur umzuformulieren d.h. Sätze umstellen, Inhalte anders aufteilen, usw. um etwaigen DC-Filtern zu entgehen.

Oder muss man Texte von Grund auf komplett neu formulieren.

Habe lange rumgesucht im Forum aber irgendwie nix dazu gefunden - obwohl es bestimmt schonmal gefragt wurde.

Gruß

Disco

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **1aaaa** » 26.12.2007, 01:01

hier gibts ein wenig theorie:
https://www.fridaynite.de/duplicate-con ... vermeiden/

Beitrag von **To-Bi-As** » 26.12.2007, 04:32

@DonDisco
Nein reicht nicht, da die Reihenfolge keine Rolle spielt. Nimm die alten Texte, sortiere die Saätze neue und ändere dann jeweils 4 Wörter ab. Das sollte erstmal reichen. Ist keine Aussage das so geht, aber bisher ist es möglich. Und wenn Du eh schon Wörter änderst, dann fällt Dir sicherlich auch noch was anderes dazu ein. Somit sollte ein DC von weniger als 20% möglich sein.

Ein Urlaub in einer Ferienwohnung
Ein gemütlicher Urlaub in einer günstigen Ferienwohnung

Das sollte Google eigentlich nicht erkennen können

Was Google da nun aber wertet weiß ich auch nicht.

Gruß, Ingo

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **erdbeerschorsch** » 26.12.2007, 09:21

Ein Urlaub in einer Ferienwohnung
Ein gemütlicher Urlaub in einer günstigen Ferienwohnung

erkennt gurgel SOFORT! hab ich grad erlebt!

Beitrag von **Gretus** » 26.12.2007, 12:08

Hallo,

man sollte schon einige relevante Keys abwerten. Es ist wahrscheinlich, dass Google Wörter nach Gewichtung bewertet. Adjektive, Adverben usw. werden nicht so stark gewertet wie z.B. Nomen: Der Aufenthalt in einer Fewo...

Grüße

Gretus

Beitrag von **Ju-Hu!** » 26.12.2007, 19:52

Der Artikel: https://www.fridaynite.de/duplicate-con ... vermeiden/ mit Nennung einiger Patente mag ja eine von vielen Erklärungen sein, wie Google DC erkennt. Klingt plausibel und einfach. Aber ich würde gern wissen, ob diese Lösung auch in der Praxis verwendet werden kann? Ich schrieb mir mal ein Script, dass die KW und Phrasendichte eines beliebigen Textes oder URL ermittelt. Bei Dreierkombis cancelte ich das ganze und ließ in der Praxis max. Zweierkombis anzeigen. Denn diese sog. „Shingle-Technik“ frisst enorme Ressourcen. Programmtechnisch eine einfache Sache, zu ermitteln welche Phrasen wie oft im Text vorkommen. Wenn aber Google den Inhalt EINER Seite mit MILLIARDEN anderer Seiten auf DIESE Art vergleichen soll ….. ist das überhaupt „flüssig“ realisierbar? „Fingerprint“ einer Website klingt ja wunderbar. Man tut so, als gebe es einen eindeutigen „Fingerabdruck“. Laufzeitmäßig ist das dann aber alles anderes als „einfach“. Mann kann „tricksen“ wie man will, mit schnellen Servern arbeiten und völlig puristisch auf unterster Ebene programmieren – aber es bleibt bei Milliarden von Seiten eine Heidenarbeit. Sicher, Stoppwörter rausnehmen und Satzelementen eine differenzierte Wichtung zuweisen. Dann wird der Algo aber auch nicht schmaler. Und bei all den Dialekten, Sprachen und Schreibfehlern? Mann kann ja auch keine Schreibfehler bei der „Shigle-Technik“ übergehen, sondern muß auch falsch geschriebene Wörter beachten (erhöht den Wortschatz um ein vielfaches *g*). Auch fehlerhafte Wörter werden gerankt und bei DC beachtet. Programmtechnisch ist das „Shingle Verfahren“ kein Thema. Aber so ein „Fingerprint“ einer Website würde einen wahnsinns dicken Wortschatz benötigen, der indiziert werden muß. Und wenn jemand ein Wort verwendet, dass es noch nicht gibt? Muß Gogle erstmal schauen, ob jedes Wort eines Textes überhaupt in der Google-Datenbank vorkommt und was wenn nicht? Läuft der Algo dann Fehlerhaft, weil man das bisher nicht indizierte Wort rausschneidet?

Grund der Fragen: Laut obigem Link/Artikel kann man DC nicht durch Mashups „abschwächen“. Wenn die Shingle-Technik zur DC Erkennung in der Praxis jedoch nicht angewendet werden kann (Weil es ressurcenmäßig einfach zu fett ist), gibt es eventuell doch Freiräume zur Vermeidung von DC, ohne jedem Text Adjektive zu „spritzen“, die bei populären Themen sowieso schon irgendwo vorliegen?

Gedanken?

Beitrag von **Sumatis** » 27.12.2007, 03:13

erdbeerschorsch hat geschrieben:
Ein Urlaub in einer Ferienwohnung
Ein gemütlicher Urlaub in einer günstigen Ferienwohnung
erkennt gurgel SOFORT! hab ich grad erlebt!

Glaub ich nicht. Da waren wohl noch andere Sätze identisch.
Wäre es so, dann würde G viele Seiten fälschlicherweise als DC erkennen.
Überleg mal wie oft so ähnliche Sätze im Web vorkommen.

Beitrag von **Ju-Hu!** » 27.12.2007, 13:39

Ein Urlaub in einer Ferienwohnung
Ein gemütlicher Urlaub in einer günstigen Ferienwohnung

Google müßte erstmal alle Wörter klassifiziieren, die Wortarten ... Problem bei den Deutschen ist: es gibt kein einheitliches System *fg*. Der Duden ist nicht der einzigste "Duden".

Nun könnte sich Google stur auf ein System einschießen, Zehn-Wortarten-Lehre, Fünf-Wortarten-Lehre oder sonstewas. Aber das nützt nichts. Denn die "Weg-Rationalisierung" von Adjektiven und Adverbien führt zu entstellten Aussagen. Ich bin nicht der Meinung, daß Google um jeden Preis DC unterstellen will und in Kauf nimmt, daß der Inhalt eines Textes völlig falsch bewertet wird.

Beispiel:

Der kleinere Industriediamant besitzt keine große Beachtung in der Schmuckindustrie.

Der (...) Industriediamant besitzt eine Beachtung in der Schmuckindustrie.

Will sagen: Google kann sehr wohl sinngebende Wörter durch den Rost fallen lassen um DC "intern" zu erzwingen, aber wird praktisch dies nicht tun. Definitiv wird Google Texte nicht verhunzen um einem armen Webmaster DC unter zu jubeln. Wohl aber könnte Google einen "Ähnlichkeits-Faktor" im Algo implementieren, der aber nix mit DC zu tun haben dürfte.

Viele halten Google für einen "Magier". Google kann die tollsten Dinger. Aber ich glaube, Googles Leistung liegt in der Abstraktion komplizierter Zusammenhänge OHNE eine künstliche Intelligenz erfinden zu müssen - den nur diese könne wirklich einen Text erfassen und begreifen was dort zur Sprache kommt *fg*.

Nee, man dichtet Google desweilen zu viel "Intelligenz" an. Und selbst das, was im kleinen, mit ein paar Tusend Texten klappen würde, ist bei Googles Datenbestand heute unmöglich.

Leztendlich tut Google viel dafür, seine "Algos" zu verschleiern. Damit keiner aus irgend einer Entwicklung irgendwas schließen kann.

Man könnte ja (wieder) Versuche Starten. Dann müßte man in den Texten aber Wöter einbauen, die nicht stark umkämpft sind und "bewertungsmäßig" alle auf einem Level liegen *g* ... den eventuell ist die Phrase "reiner Diamant" stärker umkämpft/gewichtet beim Ranking als "gelber Diamant" und ein Austausch der Adjektive "reiner" gegen "gelber" würde Schlussfolgerungen in die Irre führen.

Mal etwas logisch nachgedacht, darf Google nicht Adjektive bei Verfahren zur Textbewertung ausklammern. Geht nicht. Ergo: das Einfügen von diversen Satzelementen ist ein Mittel um keinen DC aufkommen zu lassen.

Beitrag von **Sumatis** » 27.12.2007, 15:18

Ju-Hu! hat geschrieben:Ein Urlaub in einer Ferienwohnung
Ein gemütlicher Urlaub in einer günstigen Ferienwohnung

Beispiel:

Der kleinere Industriediamant besitzt keine große Beachtung in der Schmuckindustrie.

Der (...) Industriediamant besitzt eine Beachtung in der Schmuckindustrie.

Will sagen: Google kann sehr wohl sinngebende Wörter durch den Rost fallen lassen um DC "intern" zu erzwingen, aber wird praktisch dies nicht tun. Definitiv wird Google Texte nicht verhunzen um einem armen Webmaster DC unter zu jubeln. Wohl aber könnte Google einen "Ähnlichkeits-Faktor" im Algo implementieren, der aber nix mit DC zu tun haben dürfte.

Man könnte ja (wieder) Versuche Starten. Dann müßte man in den Texten aber Wöter einbauen, die nicht stark umkämpft sind und "bewertungsmäßig" alle auf einem Level liegen *g* ... den eventuell ist die Phrase "reiner Diamant" stärker umkämpft/gewichtet beim Ranking als "gelber Diamant" und ein Austausch der Adjektive "reiner" gegen "gelber" würde Schlussfolgerungen in die Irre führen.

Mal etwas logisch nachgedacht, darf Google nicht Adjektive bei Verfahren zur Textbewertung ausklammern. Geht nicht. Ergo: das Einfügen von diversen Satzelementen ist ein Mittel um keinen DC aufkommen zu lassen.

Hm, so ein wohl eher negativ gemeinter Ähnlichkeitsfaktor könnte aber leicht kollidieren mit der Beurteilung als themenrelevant.

Beitrag von **Ju-Hu!** » 27.12.2007, 16:30

Hm, so ein wohl eher negativ gemeinter Ähnlichkeitsfaktor könnte aber leicht kollidieren mit der Beurteilung als themenrelevant.

Stimmt *g*. Bei unseren Versuchen Google zu erklären, kollidiert 'ne ganze Menge. Würde eine "Ähnlichkeitsvariable" Content (mit) bewerten, könnte Themenrelevanz in die DC Ecke geschoben werden *g*. Nach dem Motto: "Die beiden Webseiten haben einen recht ähnlichen Inhalt, nur durch ein paar Wörter ergänzt, also ist eine davon im Grunde DC!" *g*. Nee, kann ich mir auch nicht vorstellen.

Wenn man versucht Google zu erklären, trifft man auf eine Menge Dinge die sich beißen. Wie ebend DC kontra Themenrelevanz. Natürlich könnte man einen Trigger einbauen, der einer Seite ab einem bestimmten "Ahnlichkeitsfaktor" das Prädikat DC aufdrückt oder es bei der Themenrelevanz beläßt ... aber ich kann mir ienfach nicht vorstellen, daß Google sowas bei Milliarden Seiten gebacken bekommt. Man kann sich verdammt "komplizierte" Dinge ausdenken, aber sie müssen n der Praxis auch lauffähig sein.

Irgendeine brauchbare Lösung wird google schon haben, um DC zu detektieren. Aber diese radikale "Shrinking" Geschichte erscheint mir zu ressourcenfresend. Wenn, dann machen die einen Vergleich Block-/Absatzweise.

Bei mir hat es unzählige Seiten ins Nirvana gepustet, nachdem ich zusätzlichen Content um meinen DC wegnahm.
Natürlich kann das ein Zufall sein, aber intuitiv denke ich etwas ZUVIEL DC nach der Entfernung meines zusätzlichen Content zu pflegen.
VORHER war der Wiki DC (auszugsweise) kein Problem. Und das war durchaus DC *g*. Bei Millionen Treffern jedoch gut positioniert und ordentlich Traffic erhalten. Kaum entferne ich wegen Laufzeitpoblemen zusätzlichen Inhalt vor dem DC, bin ich nicht mehr gut positioniert.

Aktuell lege ich mir eine Lösung zu, die Texte in Sätze splittet und diese im Quelltext chaotisch anreiht, aber dank Div's durchaus dem Besucher das "originale" Abild liefert *g*. Dann werde ich sehen, was an Googles "DC Erkennung" dran ist.

Und wenn das "verwürfeln" von Sätzen nicht genügt, häng ich 'ne Synonymdatenbank davor oder veranstalte sonstige Spielereien. Man bewertete das Schreckgespenst "DC" irgendwie über, dabei ist einfach weg zu bekommen.... insofern man an das Gespenst glaubt *g*

Beitrag von **marc77** » 27.12.2007, 18:34

@gespenst

https://googlewebmastercentral-de.blogs ... %20Content

- Wir haben Algorithmen entworfen, die dazu beitragen, dass Duplicate Content keine Beeinträchtigung für User und Webmaster darstellt.

Google will einmalige Ergebnisse liefern und wählt deswegen automatisch eine Version aus, falls eure Websites Duplicate Content aufweisen. Falls ihr euch also nicht die Mühe machen wollt, eure Duplikate auszusieben, könnt ihr einfach uns dafür Sorge tragen lassen.
Duplicate Content auf eurer Site führt nicht zu Penalties. Wenn doppelte Seiten erkannt werden, taucht im Interesse der Ergebnisvielfalt nur eine Version in den Suchergebnissen auf.

Beitrag von **Sumatis** » 27.12.2007, 18:38

Bei dem Resourcenargument muss ich aber immer an Copyscape denken. Wenn das sogar die innerhalb von Sekunden hinkriegen (wie zum Geier?), sollte es G erst recht schaffen, jede Site in größeren Abständen zu checken.

Ob G dafür Resourcen aufbringen WILL, ist wieder eine andere Frage.

Deine Nirvana-Erfahrung würde ich auf den speziellen Umstand schieben, dass es von Wikipedia geklaut war. Schätze mal, die Wiki-Seiten kennt G sehr gut...

Beitrag von **Sumatis** » 27.12.2007, 18:41

marc77 hat geschrieben:@gespenst

https://googlewebmastercentral-de.blogs ... %20Content

- Wir haben Algorithmen entworfen, die dazu beitragen, dass Duplicate Content keine Beeinträchtigung für User und Webmaster darstellt.

Google will einmalige Ergebnisse liefern und wählt deswegen automatisch eine Version aus, falls eure Websites Duplicate Content aufweisen. Falls ihr euch also nicht die Mühe machen wollt, eure Duplikate auszusieben, könnt ihr einfach uns dafür Sorge tragen lassen.
Duplicate Content auf eurer Site führt nicht zu Penalties. Wenn doppelte Seiten erkannt werden, taucht im Interesse der Ergebnisvielfalt nur eine Version in den Suchergebnissen auf.

Du bzw. G spricht da von INTERNEM DC, wir von externem.
Internen DC feststellen kann meine kleine Cousine mit leicht umprogrammiertem Gameboy auch, da muss G nicht so angeben und sich selbst auf die Schulter klopfen.

Beitrag von **Ju-Hu!** » 27.12.2007, 19:52

Bei dem Resourcenargument muss ich aber immer an Copyscape denken. Wenn das sogar die innerhalb von Sekunden hinkriegen (wie zum Geier?),

Copyscape nutzt ganz einfach noch die Google API *g* (ab 2006 wurde die Google API gecancelt, bisherige Entwickler dürfen aber weiter die API mit ihren Keys nutzen)

Copyscape ist Copyscape keine eigene Super Entwicklung, sondern nur eine Schnittstelle zu Google mit einer etwas anderen Oberfläche und zusätzlichen Lämpchen und Pieper *fg*.

Wenn man bei Copyscape einen Text von seiner Website eingibt, bekommt man die Seiten angezeigt, die diesen Text auch haben? Na, das ist doch die bekannte Googlesuche in grün *g*

Also Ressourcen brauch Copyscape keine. Über die API wird die Anfrage gesendet und per xml sendet Google dir Ergebnisse mit Seiten zurück, welche diesen Text intus haben. Copyscape muß das Ganze dann nur noch schick verpacken.

Sind wir wieder bei der Idee, daß es effektive Algos geben müsse, weil Copyscape innerhalb von Sekunden Resultate liefert. Da wir nun aber wissen, daß Copyscape lediglich dank der Google API sich die Seiten ausgeben läßt ......

Wie gesagt, DC ist DC wenn er eindeutig DC ist. Alles andere, leicht DC, viel DC, mitelmäßig DC ... ist kein DC im Sinne von DC. Größere Blöcke von DC wird Google sichr in größeren eitabständen versuchen zu detektieren, aber das bereits kleine Satzteile (!) als DC beachtung finden, glaub ich nicht.

Deine Nirvana-Erfahrung würde ich auf den speziellen Umstand schieben, dass es von Wikipedia geklaut war. Schätze mal, die Wiki-Seiten kennt G sehr gut...

Da haste aber einen Punkt erwischt, wo ich mich rechtfertigen muß *gg*

Na sicher *g*. Grundsätzlich. Klar erkennt Google, daß ein großer Block der Wikipedia entstammt. Aber mit Sicheheit ranken die sowas nicht ab, weil es "geklaut" ist. Wikiartikel dürfen voll oder Auszugsweise übernommen werden, insofern man auf die Wiki verweißt und die übernommenen Inhalte auf Deiner Seite der selben Lizenz unterliegt wie der originale Wiki Text. Da mosert Google nicht wegen "geklautem" Inhalt herum *g*. Insofern er das Wort überhaupt kennt *g*.

Wie gesagt, mein hoher DC Anteil war für Google kein Problem, bis ich diesen durch Entzug zusätzlichen Contens noch mehr erhöhte *g* (kan aber auch ein Trugschluß sein). Meine Schuld. Das der DC von der Wiki stammte und darum ich im Nirvana bin, hat (glaube ich) nur in soweit Relevanz, als das der originale Text in einer Seite mit mehr PR steht und besser verlinkt ist.

Also, wenn das einzigste Problem bei Google der DC wäre, könnte ich ruhig schlafen *fg*

Beitrag von **marc77** » 27.12.2007, 20:09

@sumatis:

nur weil wir DC kennen, muss nicht immer DC an allem Schuld sein...es gibt einfach zuviele Faktoren um immer alles auf DC zu schieben..

Don’t worry be happy: Regt euch nicht zu sehr über Websites auf, die euren Content „scrapen“, d. h. ihn sich widerrechtlich aneignen und neu veröffentlichen. Dies ist zwar ärgerlich, jedoch ist es sehr unwahrscheinlich, dass solche Websites einen negativen Einfluss auf die Präsenz eurer Website in Google haben...