Wie der dup.Content-Filter wirklich (???) funktioniert

Beitrag von **lrosen** » 09.03.2006, 09:25

Meine Theorie zum Thema dup.Content-Filter:
Vorab: Dup.Content innerhalb einer Domain ist nicht schädlich und kann ignoriert werden. Das Problem tritt nur zwischen Domains auf.

G. weiss von jeder Seite (nicht 'Site'), bei welchen Suchbegriffen sie wo platziert ist. G. weiss auch, welche Seite wie häufig angeklickt wird. Beweis: siehe Sitemap-Statistiken.

Theorie: Anders als oft spekuliert, läuft die dup.Content-Erkennung keinesfalls über den Textvergleich (60-70-80-90% ähnlich) und schon gar nicht über eine semantische Analyse, sondern -vereinfacht- etwa so ab:

1- Man nehme die Ergebnisliste zu einem Suchbegriff, z.B. Hommingberger und die top-platzierte(n) Seite(n):
https://www.google.de/search?q=Hommingberger

2- Jetzt nehme man alle anderen Suchbegriffe, für die die Top-Seite(n) ebenfalls top platziert ist, z.B. Forellenzuchtbetrieb und all' die anderen:
https://www.google.de/search?q=Forellenzuchtbetrieb

3- Zum Schluss bilde man den Durchschnitt aller Ergebnislisten. Seiten, die für den gleichen Satz von Suchbegriffen gleich oder ähnlich platziert sind, sind Duplikate der Top-Seite und werden mit einem Malus abgewertet.

4- Hat eine Site (oder 'Domain') ausreichend viele dup.Seiten, wird sie kollektiv mit einem Malus belegt.

Voila.

----

Ein solches Verfahren ist für G. viel leichter zu implementieren als ein direkter Textvergleich jeder Seite mit jeder anderen und erfüllt auch hervorragend die Relevanz-Idee. Einfacher als eine semantische Analyse ist es allemal.

----

Aus Sicht des Betreibers (oder meinetwegen auch SEO) fördert dieses Verfahren allerdings ganz massiv die Monopolisierung:
Relevanz-Jünger und Spamreport-Befürworter: Bitte JETZT das Gehirn einschalten !

Mal angenommen, ich wollte einen Online-Buchladen eröffnen, der 1000mal besser, schöner und billiger als Amazon werden soll. Dazu wäre es notwendig und praktisch unvermeidlich, dass ich zu sehr ähnlichen Begriffen wie Amazon gefunden werden muss, selbst wenn ich den kompletten Content selbst erfunden habe.

Der oben beschriebene Content-Filter wird mich in diesem Fall immer als Dublette von Amazon identifizieren, so dass ich praktisch keine Chance gegen die etablierten Sites habe

Mit anderen Worten: G.'s Relevanz-Fetischismus behindert den Wettbewerb und die weitere Entwicklung.

Kommentare ?

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Cura** » 09.03.2006, 09:45

Kommentar?

G ist eine als Löwe verkleidete Maus.

Beitrag von **lloy** » 09.03.2006, 09:58

G. weiss von jeder Seite (nicht 'Site'), bei welchen Suchbegriffen sie wo platziert ist.

Nein. Die Ergebnislisten werden durch einen Algorithmus erstellt. Das Ergebnis dieses Algorithmus ist "dynamisch", d.h. Google kennt seine eigenen Serps gerade nicht. Das kann man schön daran sehen, wie für verschiedene Suchbegriffe unterschiedliche descriptions für die einzelnen Seiten herangezogen werden. Wäre es so, wie Du sagst, müsste ja für jeden Begriff bzw. für jede Kombination von Begriffen eine eigene Ergebnisliste erstellt und gespeichert werden. Aus programmiertechnischer Sicht wäre das zu aufwendig und auch nicht zielführend.

G. weiss auch, welche Seite wie häufig angeklickt wird. Beweis: siehe Sitemap-Statistiken.

Gilt nur für die Zugriffe aus den Google eigenen Serps heraus und selbst da glaube ich nicht, dass diese Daten so verwendet werden, wie Du annimmst.

Zum Schluss bilde man den Durchschnitt aller Ergebnislisten. Seiten, die für den gleichen Satz von Suchbegriffen gleich oder ähnlich platziert sind, sind Duplikate der Top-Seite und werden mit einem Malus abgewertet.

Du gehst davon aus, dass die Dupletten gleich oder ähnlich plaziert sind, wie das "Original". Aus meiner Erfahrung heraus ist dies jedoch keine Voraussetzung für den DC-Filter.
Zudem müsste ein Amazon-Clone dann erst mal einen ähnlichen Status wie Amazon selbst erlangen, um anschliessend abgestuft zu werden.

Just my 2cents, aber ich bleibe Anhänger der Texterkennungs-These

von **Anzeige von ABAKUS** »

Beitrag von **mediadonis** » 09.03.2006, 10:00

sorry Irosen, Deine Theorie halte ich für totalen Schwachsinn...

Beitrag von **oldInternetUser** » 09.03.2006, 10:16

Die Idee halte ich - unter dem Gesichtspunkt der Implementierung - für gar nicht mal so abwegig. Allerdings mit zwei wesentlichen Änderungen:

G. weiss von jeder Seite (nicht 'Site'), bei welchen Suchbegriffen sie wo platziert ist

Es werden nur die OnPage- und die OnSite-Kriterien herangezogen, alle externen Links werden dabei ignoriert. Sprich: Es ist ein interner Index, den niemals jemand externes zu Gesicht bekommt.

G.'s Relevanz-Fetischismus behindert den Wettbewerb und die weitere Entwicklung

Halte ich für eindeutig falsch. Denn man kann dieselben Inhalte mit verschiedenen umgebenden Worten beschreiben und dann auch als Newcomer eine alteingesessene Seite überholen.

Beitrag von **Anonymous** » 09.03.2006, 10:32

ich denke mal das google hier einen hochkomplexen speziellen doppelt content filter einsetzt. vermutlich werden logarithmische funktionen eingesetzt welche den inhalt zwischen den steuerzeichen (tags) auswertet. hierzu bildet google einen shecksumme, vermutlich einen hash-wert.
nun erhält goggle für jede seite x hashwerte welche logarithmisch berechnet werden können.
mit hilfe der bolschen funktionen so wie der relativität kann dann über einen längeren zeitraum und ip übergreifend nocht nur 100% exakt doppelter contemnt sondern auch relativ doppelter content kontrolliert werden.

Beitrag von **ole1210** » 09.03.2006, 10:34

DC ist sehr wohl ein Problem auch innerhalb einer Seite.

Wie erklärst du sonst, das immer mal wieder ein Forum gekickt wird, welches auf Grund von fehlerhaften rewrite Rules masssig DC hat?

Beitrag von **Martin Ice** » 09.03.2006, 10:34

Irosen,

ich denke das kann so nicht funktionieren, da Du mit Inklusionsverknüpfungen arbeitest und die unweigerlich in einen Teufelskreis führen. Auch ist der Rechenaufwand so enrom, dass sowas wahrscheinlich nicht durchzuführen ist. Ich habe mal ein Interview mit einem von Yahoo gelesen. Dort stand, dass schon das einfache errechnen von Pagerank und zählen der Backlinks so enorm viel Rechenleistung und Zeit( Geld ) kostet, dass es nur selten gemacht wird und auf nötigste beschränkt ( deswegen sind die Ergebnisse von denen wohl auch so miserabel ).

Meiner Meinung nach wird das ganze - wenn überhaupt - über Hashwerte gemacht. Bestimmte Teile von der Seite werden gescannt und ein Wert erzeugt - ähnlich wie bei der Gesichtfelderkennung, dort werden ja auch nur markante Punkte ausgewählt. Anhand dieses Hash-Werts kann man dann Kopien sehr gut erkennen. So haben es überings auch die ganzen Filesharing Progs gemacht. Hash Wert über eine Datei erzeugt und dann
im Internet diesen Wert gesucht. Selbst kleine Abweichungen in der Datei ( Audio MP3) würden den Hash Wert nicht verändern, weil nur bestimmte Punkte in den Wert einfliessen.
Mit einer Datenbank und genung Power kannst DU nun redundante Seiten über diesen als INdex erzeugten Wert aufspühren und nochmals einer gesonderten Prüfung unterziehen.

Ist aber auch nur meine Meinung....

Beitrag von **oldInternetUser** » 09.03.2006, 11:03

Tja, jetzt müssen wir einmal elementarste Begriffsklärungen machen:

Ein Hashwert einer Datei ändert sich drastisch, wenn sich nur ein einziges Byte der Datei ändert. Das ist ideal, wenn die Datei bsp. komprimiert (MP3 komprimiert auch) ist, da ein geändertes Byte die Datei meistens zerstört.

Sprich: Hashwerte sind extrem scharf.

Für die Ermittlung von Ähnlichkeiten sind sie damit gerade völlig ungeeignet.

Aber es ist schon faszinierend, so manchen Unsinn zu lesen - Hashwerte zu MP3-Files und Gesichtserkennung liegen doch 'ziemlich weit auseinander'.

Beitrag von **Anonymous** » 09.03.2006, 11:05

du vergisst die auflösung der strukturellen integrietät zwischen den tags!
hier könnte eine neo-plausibilitäts sehr leicht greifen.
ausserdem lässt es sich leicht nach claperon, die auflösung dreier unbekannter, entschärfen.

Beitrag von **lrosen** » 09.03.2006, 11:06

lloy hat geschrieben:Nein. [...] Google kennt seine eigenen Serps gerade nicht

Meld' Dich mal für das G.-Sitemap-Programm an. Da zeigen sie Dir genau das.

oldInternetUser hat geschrieben:Es werden nur die OnPage- und die OnSite-Kriterien herangezogen, alle externen Links werden dabei ignoriert.

Zustimmung. Ansonsten 'tschulligung für den politischen Ausflug. Soll nicht wieder vorkommen.

---
PS: Wie so oft: Am interessantesten sind die Antworten, die hier nicht gegeben werden ...

Beitrag von **Cura** » 09.03.2006, 11:08

@Pink _

Das siehst Du falsch. G nimmt jede einzelne Seite und gleicht sie mit den übrigen 8 000 000 000 Seiten ab. So einfach ist das.

Beitrag von **lloy** » 09.03.2006, 11:37

lloy hat folgendes geschrieben::
Nein. [...] Google kennt seine eigenen Serps gerade nicht

Meld' Dich mal für das G.-Sitemap-Programm an. Da zeigen sie Dir genau das.

Ich rede nicht von den Statistiken einer Seite, ich rede von den SERPs, d.h. den Ergebnislisten.

Man kann anhand vieler Phänomene beobachten, dass diese dynamisch generiert werden.
Sicherlich kann man nicht ausschließen, dass EINZELNE Ergebnisseiten zusätzlich gespeichert werden, um bestimmte Dinge damit zu tun.

Aber mal andersrum gedacht:
Welchen Vorteil hätte ein Verfahren:
- Das so viel Speicher- und Rechkapazität brauchen würde, dass selbst die 100.000 Server von Google wohl etwas überfordert wären?
- Das in seinen Ergebnissen derart unflexibel wäre?
- Einen Wikipedia-Clone erst dann erkennt, wenn er bei ca. 1000.000 Suchbegriffen Top10 gelistet ist und der Webmaster schon längst in der Karibik seinen Lebensabend geniesst.

Sorry für die Ironie, aber meine alltäglichen Erfahrungen und Beobachtungen widersprechen einfach massiv dieser Theorie.

Beitrag von **LinkPop** » 09.03.2006, 11:45

Cura hat geschrieben:@Pink _

Das siehst Du falsch. G nimmt jede einzelne Seite und gleicht sie mit den übrigen 8 000 000 000 Seiten ab. So einfach ist das.

Bist länger im Urlaub gewesen?

https://www.google.de/search?q=www
25.270.000.000

Beitrag von **marc75** » 09.03.2006, 11:46

Mal angenommen, ich wollte einen Online-Buchladen eröffnen, der 1000mal besser, schöner und billiger als Amazon werden soll.

Ob dein fiktiver Buchladen, besser und schöner ist sollte man nicht selbst bewerten.
Buchladen und billiger? schon mal was von Buchpreisbindung gehört?
So das nur mal so am Rande.

zum DC Filter:
das es ein Filter gibt kann man annehmen, ob google den Ständig online hat/nutzt ist fraglich.

Bis vor kurzen lieferte google Ergebnisse, da waren in den TOP20 rund 10 Seiten mit DC, nur das Html rundrum war anders. Es waren ein Original (der selbst Content klaute) und 9 affilinet Teilnehmer. Die waren über ein halbes Jahr in den Top 20.