Seite 1 von 3

Unique-Texte

Verfasst: 29.04.2011, 09:01
von bionade
Moin, moin!
Weiß jemand wie hoch die Unique-Rate in % bei Texten sein muss, damit G. sie akzeptiert?
Danke schon mal vorab für Wortspenden!
Grüße!
Bio

Verfasst:
von

Verfasst: 29.04.2011, 09:08
von Bodo99
Ich verstehe die Frage nicht. Google akzeptiert fast alle Texte. 100% Unique Texte ranken einfach nur besser. Willste jetzt wissen ob Google Mischtexte aus 70% Unique und 30% DC auch mag? Wie würdest du das bewerten wenn du Google wärst?

Verfasst: 29.04.2011, 09:49
von bionade
OK, akzeptiert ist das falsche Wort. Ich meinte: wie hoch muss die Unique-Rate sein, damit der Text rankt bzw. Links aus dem Text positive Effekte auf das Ranking anderer Seiten haben.

Um die Antwort teilweise gleich sebst zu geben: 100% unique ist nicht notwendig, die Rate, die noch durchgeht, ist erstaunlich. Das geht ja auch nicht anders, denn bei der Menge an Texten, die es im Web gibt, kann es schon mal zu Überschneidungen kommen. (Zitate, häufig verwendete Floskeln...)

Ich habe dazu einen detaillierten Bericht gelesen, finde ihn aber leider nicht mehr. Daher meine Frage.

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 29.04.2011, 16:47
von PapaRatzi
Das ist schwierig zu beantworten, weil man müsste erstmal definieren was unique ist:

Ein Text besteht aus zwei Teilen, Teit 1 ist neu geschrieben und Teil 2 ist ein bereits vorhandener Text?

oder

Ein Text besteht aus mehreren (5-6) verschiedenen zusammengewürfelte Teilen, alle Texte sind google bekannt und wurden in dem neuen Text erstmalig kombiniert?


Nun müsste man noch wissen wie google zwei Texte miteinander vergleicht... Hier könnte Google aus den vorhandenen Wörtern einen Wert bilden, ein ähnlicher Wert sagt aber noch lange nichts über den tatsächlichen Inhalt aus....

Ich bin der Meinung das es Aufgrund der Messschwierigkeiten bei Google bei 50% unique + 50% DC keine Rankingprobleme gibt....

Am besten ist es aber das man die Textcluster je länger der Text ist jeweils klein hält:

25 % unique + 25 % DC + 25 % unique + 25 % DC

ist bei längeren Texten besser als:

50% unique + 50 % DC

Re: Unique-Texte

Verfasst: 29.04.2011, 17:06
von Hirnhamster
bionade hat geschrieben:Moin, moin!
Weiß jemand wie hoch die Unique-Rate in % bei Texten sein muss, damit G. sie akzeptiert?
Danke schon mal vorab für Wortspenden!
Grüße!
Bio
ca. 30% Uniqueness hat bei empirischen Tests von mit gereicht. Unqiueness wird dabei nach den Algorithmen berechnet, die in den Papers vorgestellt sind, die ich https://www.myseosolution.de/seo-tools/ ... on-texten/ erläutert hab. Ein "praktisches Beispiel" zur Berechnung hab ich auf https://www.mywebsolution.de/artikel/20 ... ntent.html vorgestellt.

Die Texte wurden mit meinem Article Wizard erstellt (deshalb kenn ich auch die Werte) und auf Freeblogs und Co verteilt.

Ich benutze allerdings inzwischen wesentliche höhere Raten (ca. 75%+ für Artikelverzeichnisse), nur für den Fall, das Google da mal die Schrauben anzieht ;)

Verfasst: 29.04.2011, 18:00
von PapaRatzi
Hirnhamster: bei dem von dir genannten Modell müsste aber jeder Text mit jedem verglichen werden:

Also wenn Google z. Bsp. 20 Mrd Seiten im Index hat, müsste Google 20 Mrd x (20 Mrd -1) Vergleiche anstellen (gut man könnte auch nur thematisch verwandte Seiten vergleichen, dann wären es weniger) .... und diese Vergleiche müssten sich regelmäßig wiederholen, da sich die Inhalte ändern könnten... oder seh ich das falsch?

Verfasst: 29.04.2011, 18:24
von Hirnhamster
nope, das siehst du richtig.

Das von mir im Beispiel dargestellte Modell verdeutlich nur das Prinzip dessen, was passiert. Google geht noch einen Schritt weiter und erstellt einen sogenannten Fingerprint eines Dokumentes, der nur wenige Byte groß ist.

Dazu wird eine zufällige Permutation über die Shingles gelegt und das Minimum ausgewählt. In der Online Vorlesung in https://www.ifis.cs.tu-bs.de/teaching/w ... ws/video11 wird das ganz gut dargestellt, ist aber nicht ganz so einfach zu erklären ohne tiefer in die Mathematik zu gehen ;)

Statt also den ganzen "Prozess" zu wiederholen, muss lediglich noch der Fingerprint verglichen werden. Wie Google selbst das nun genau macht, kann ich dir allerdings nicht sagen, aber in dem Paper von Brodei ist es zum Beispiel so, dass nicht "jedes neue Dokument" verglichen wird, sondern das "einmal" der gesamte Bestand verglichen wird und gleiche Dokumente in Clustern zusammengefasst werden. Der Prozess lässt sich wiederum über Divide and Conquer Verfahren parallesieren und skaliert somit eher.

Verfasst: 29.04.2011, 18:39
von PapaRatzi
Sehr interessant Hirnhamster!!

Aber noch eine Rückfrage:

Man kopiere zum Bsp. sein eigenes Projekt 1:1 und nun setzt man in der Kopie im oberen Bereich einen Text welcher auf allen Unterseiten gleich ist und etwa genau so groß ist wie der "Contenttext".
Die Unterseiten der Kopie wären damit jeweils 50% unterschiedlich und zum Original gäbe es ebenfalls 50% unterschied....und das soll funktionieren?

Verfasst: 29.04.2011, 20:53
von Hirnhamster
Ich kann dir die Frage höchstens theoretisch beantworten.

1) Speziell zu dem was du gerade vorschlägst (gleicher Text auf allen Seiten) gibt es diverse Patente von Google um diesen herauszufiltern (siehe z.B. https://www.seobythesea.com/?p=996 ). Dieser Text wird auch als Boilerplate bezeichnet und kommt zum Beispiel häufig in Form von Navigation und Copyrighthinweisen vor. Es ist also wahrscheinlich, dass Google versucht, diesen Boilerplate Code möglichst zu erkennen und auszufiltern - er könnte also bei dem tatsächlich Uniquenessvergleich gar nicht berücksichtigt werden.

2) Die dargestellte Shingle-Technik basiert auf dem Zerlegen eines Textes in X-Wort-Teile. Ich bin in meinem Beispiel von einem 3-Way-Shingle ausgegangen - theoretisch lassen sich aber auch größere Teile auswählen. Damit sinkt zwar die Wahrscheinlichkeit der Übereinstimmung (weil eben "größere Teile" gleich sein müssen) andererseits kann man damit Textstellen identifizieren, die sich in weiten Teilen überlappen. Eventuell wird sowas eingesetzt und es werden andere Schwellwerte benutzt (Statt 50% müssen es jetzt schon 70% Uniqueness sein, damit kein DC vorliegt) - ist aber wie gesagt nur eine Überlegung von mir.

Was Google letztendlich macht und ob es überhaupt "genaue" Schwellwerte gibt, lässt sich glaub ich nicht eindeutig sagen. Es gibt ja das Phänomen, das gleiche Artikel auf starken Seiten trotzdem in den Index kommen, obwohl sie zu 80% oder so duplicate Content sind. Wenn du es "genau" wissen willst, musst du es für deinen Anwendungsfall ausprobieren - alles andere bleibt halt Spekulation ;)

Verfasst: 29.04.2011, 23:40
von Vegas
75-80% ist ohne überproportionalen Aufwand schon hart für den menschlichen Leser, besonders bei eher nischenspezifischen Texten. Ich persönlich fahre meist knapp über 50% und damit sehr gut.

Verfasst: 30.04.2011, 00:05
von Link-Geier
Vegas hat geschrieben:75-80% ist ohne überproportionalen Aufwand schon hart für den menschlichen Leser
Was ist das für ein Gefasel - hier geht es um DC. Woher soll der Leser denn wissen das das was er gerade liest zu irgendeinem Prozentsatz schon woanders steht.

Verfasst: 30.04.2011, 00:57
von Vegas
Link-Geier hat geschrieben:Was ist das für ein Gefasel - hier geht es um DC. Woher soll der Leser denn wissen das das was er gerade liest zu irgendeinem Prozentsatz schon woanders steht.
Sorry, aber Du hast nicht verstanden worum es in diesem Thread überhaupt geht.

Es geht um die DC Erkennung bei der Umwandlung einer oder mehrerer Contentquellen bzw. Ursprungstexte in viele Varianten, vulgo auch gerne "Spinning" genannt und nicht um unterschiedliche selbstgeschriebene Texte.

Für den Leser sind 75-80% deshalb hart weil beim Ersetzen von Worten durch Synonyme und Umherwürfeln von Satzteilen/Absätzen oft die Lesbarkeit extrem leidet und der Text sehr holperig klingt.

Nur auf Wort/Begriffebene bezogen mußt Du grob über den Daumen gepeilt für 75-80% jedes zweite Wort mit 4 oder mehr Synonymen ausstatten die dann in beliebiger Kombination verwendet werden. Um das einigermaßen flüssig lesbar hinzubekommen ist der Aufwand immens. Beim "Nested Spinning" brauchst du weniger Synonyme, das ist aber noch eine Spur komplexer.

Verfasst: 30.04.2011, 01:10
von Link-Geier
ja, aber mit so einem Scheiß geb ich mich halt garnicht erst ab

Verfasst: 30.04.2011, 01:18
von unknownsoul
Für den Leser sind 75-80% deshalb hart weil beim Ersetzen von Worten durch Synonyme und Umherwürfeln von Satzteilen/Absätzen oft die Lesbarkeit extrem leidet und der Text sehr holperig klingt.
Ich hoffe, Du machst das nur mit eigenen Texten, denn das Urheberrecht gibts auch noch! :-)

Verfasst: 30.04.2011, 01:18
von Vegas
Link-Geier hat geschrieben:ja, aber mit so einem Scheiß geb ich mich halt garnicht erst ab
Ist halt eher der Masse statt Klasse Ansatz, aber für Satellitenseiten, Artikelverzeichnisse die alles online stellen was man Ihnen vorwirft o.ä. nicht verkehrt.