Vorab: Dup.Content innerhalb einer Domain ist nicht schädlich und kann ignoriert werden. Das Problem tritt nur zwischen Domains auf.
G. weiss von jeder Seite (nicht 'Site'), bei welchen Suchbegriffen sie wo platziert ist. G. weiss auch, welche Seite wie häufig angeklickt wird. Beweis: siehe Sitemap-Statistiken.
Theorie: Anders als oft spekuliert, läuft die dup.Content-Erkennung keinesfalls über den Textvergleich (60-70-80-90% ähnlich) und schon gar nicht über eine semantische Analyse, sondern -vereinfacht- etwa so ab:
1- Man nehme die Ergebnisliste zu einem Suchbegriff, z.B. Hommingberger und die top-platzierte(n) Seite(n):
https://www.google.de/search?q=Hommingberger
2- Jetzt nehme man alle anderen Suchbegriffe, für die die Top-Seite(n) ebenfalls top platziert ist, z.B. Forellenzuchtbetrieb und all' die anderen:
https://www.google.de/search?q=Forellenzuchtbetrieb
3- Zum Schluss bilde man den Durchschnitt aller Ergebnislisten. Seiten, die für den gleichen Satz von Suchbegriffen gleich oder ähnlich platziert sind, sind Duplikate der Top-Seite und werden mit einem Malus abgewertet.
4- Hat eine Site (oder 'Domain') ausreichend viele dup.Seiten, wird sie kollektiv mit einem Malus belegt.
Voila.
----
Ein solches Verfahren ist für G. viel leichter zu implementieren als ein direkter Textvergleich jeder Seite mit jeder anderen und erfüllt auch hervorragend die Relevanz-Idee. Einfacher als eine semantische Analyse ist es allemal.
----
Aus Sicht des Betreibers (oder meinetwegen auch SEO) fördert dieses Verfahren allerdings ganz massiv die Monopolisierung:
Relevanz-Jünger und Spamreport-Befürworter: Bitte JETZT das Gehirn einschalten !
- Mal angenommen, ich wollte einen Online-Buchladen eröffnen, der 1000mal besser, schöner und billiger als Amazon werden soll. Dazu wäre es notwendig und praktisch unvermeidlich, dass ich zu sehr ähnlichen Begriffen wie Amazon gefunden werden muss, selbst wenn ich den kompletten Content selbst erfunden habe.
- Der oben beschriebene Content-Filter wird mich in diesem Fall immer als Dublette von Amazon identifizieren, so dass ich praktisch keine Chance gegen die etablierten Sites habe
- Mit anderen Worten: G.'s Relevanz-Fetischismus behindert den Wettbewerb und die weitere Entwicklung.