Seite 1 von 2

Duplicate Content Grund für Abstieg?

Verfasst: 17.11.2006, 11:52
von Forenmensch
Ich hatte ja versucht einige tausend produktdatenbankeinträge aus csv datenbanken in wordpress zu importieren...die einträge wurden teilweise sogar in den top20 gefunden teilweise auch nicht...was sollt´s hatte ja wenig arbeit davon...ich hab jetzt bis 2008 stündlich neue solche blogeinträge :lol:.

Meine Besucherzahlen sind dramatisch abgerutscht (ich hatte kaum traffic durch die csv blog einträge, sondern traffic auf selbst geschriebene artikel) kann es daran liegen, daß google aufgrund "einiger" seiten die content enthalten denen es auf anderen seiten gibt, jetzt die ganze domain schlecht behandelt oder ist es nur zufall und pech? Soll ich die csv importierten einträge löschen oder einfach abwarten? Ich dachte wenn google eine unterseite als duplicate content ansieht, würde siee infach ignoriert?

Es ist aber nicht so, daß diese shopping blogeinträge aus dem index sind, sondern teilweise blogeinträge die vorher monate platz 5-6 waren...

Verfasst:
von

Verfasst: 17.11.2006, 17:03
von NeMeRo
man muss da mal logisch denken...wenn 10% deiner seite tausendfach im netz ist, ist das google evtl egal.
wenn aber 99,9% deiner seite tausendfach im netz ist, hat DEIN blog definitiv die daseinsberechtigung verloren...

Verfasst: 17.11.2006, 17:30
von Forenmensch
Also meinst du ich soll die seiten die VIELLEICHT als duplicate content gesehen werden könnten (wie finde ich heraus ob eine seite für google duplicate content ist??) entferne?

Sie sind ja nicht identisch aber die blogeinträge enthalten beschreibung die es auf vielena nderen seiten auch 1:1 gibt...ich dachte bisher, duplicate content wäre wenn die seite nahezu identisch ist...?

Beispiel Quelle Produktdatenbank
Da hab ich nur title + beschreibung + link übernommen..es ist im wordpress ein blog eintrag ohne preis ohne sonstige angaben wie versandkosten...

Verfasst:
von

Verfasst: 17.11.2006, 22:46
von FEAnoR
Wie lange hast du das denn schon im Betrieb?

Verfasst: 18.11.2006, 13:15
von Forenmensch
Domain ist 13 Monate alt, die produktdatenbanken hatte ich seit mitte oktober drauf...

Verfasst: 19.11.2006, 22:54
von Fridaynite
Zum Thema DC habe ich hier mal etwas zusammen geschrieben:

Duplicate Content Strafe vermeiden

Verfasst: 19.11.2006, 23:26
von Forenmensch
Btw hab die eventuell verantwortlichen einträge freitag gelöscht, der google bot schaut auch wie vor dem gau alle 3 1/2 stunden die index.php an...*hm*

Verfasst: 21.11.2006, 12:11
von FEAnoR
Hallo Fridaynite,
Fridaynite hat geschrieben:Zum Thema DC habe ich hier mal etwas zusammen geschrieben:

Duplicate Content Strafe vermeiden
ich fand' deinen Artikel sehr informativ und gut. Jedoch würde mich brennend interessieren, woher du du Info hast, dass Google den Content in genau 4 (?) Wörter lange Shingles aufteilt, bzw. überhaupt in Shingles aufteilt. Gibt es für diese Aussagen Quellen?

Verfasst: 21.11.2006, 12:15
von Itds-Online
Kannst du mir Adresse per PN Schicken ?

Verfasst: 21.11.2006, 12:20
von Fridaynite
FEAnoR hat geschrieben:Hallo Fridaynite,
Fridaynite hat geschrieben:Zum Thema DC habe ich hier mal etwas zusammen geschrieben:

Duplicate Content Strafe vermeiden
ich fand' deinen Artikel sehr informativ und gut. Jedoch würde mich brennend interessieren, woher du du Info hast, dass Google den Content in genau 4 (?) Wörter lange Shingles aufteilt, bzw. überhaupt in Shingles aufteilt. Gibt es für diese Aussagen Quellen?
Da gibts ein Patent, das Google eingereicht hat. Da stehts drin. Muss mir mal wieder den Link rauskramen. Hab nur jetzt keine Zeit. Ich werds dann noch in den Blogpost mit einbinden.

Verfasst: 21.11.2006, 13:37
von Bogomir
Meiner Meinung nach ist die Theorie ganz schön, aber habt Ihr schon mal überlegt, wieviele Shingles das pro Seite wären ? Wenn man dann die Shingles noch in allen x-Milliarden Seiten suchen müßte, um von einer Seite den DC zu erkennen, wäre das für alle x-Milliarden Seiten ziemlich viel Aufwand. Ich glaube, der Vergleich zwischen 2 Seiten wird erst dann gemacht, wenn ein "Verdacht" besteht. Dieser Verdacht könnte z.B. ein gleicher Titel, etc. sein. ... nur mal so am Rande :-)

Verfasst: 21.11.2006, 14:00
von Dub
Fridaynite hat ja schon erwähnt, dass es zu der "Theorie" ein Patent gibt. Google müsste gar nicht jede Seite mit allen anderen Seiten vergleichen, um den Großteil an Sites mit DC zu finden.

Wenn eine Seite aus 1000 Wörtern besteht, dann lässt sie sich in genau 996 Shingles zerlegen. Das macht man mit - sagen wir - hundert Seiten einer Site. Dann muss man lediglich 99.600 Shingles dahingehend überprüfen, ob sie bzw. ein Großteil davon in sämtlichen Shingles von Wikipedia oder Amazon oder *Liste mit den großen Sites dieser Welt* vorkommen. Falls ja: DC und tschüss. Das wird mit Haskeys gemacht und dauert wahrscheinlich nur einige Sekunden.

Wie oben angedeutet, hätte man auf diese Weise sämtliche Wikipedia-Klone, Amazon AWS-Shops und so weiter in recht kurzer Zeit gefunden.

Diese Vorgensweise hätte allerdings zwei kleine Haken: Man würde Sites generell den DC-Stempel aufdrücken, nicht nur den betreffenden Seiten - egal, wieviele Seiten mit unique Content noch unter der Site vorhanden wären. Und sie bietet bösen Buben die Chance, nicht entdeckt zu werden, wenn die Auswahl der zu überprüfenden Seiten bei einer großen Site nur auf Seiten mit unique Content fällt.

Verfasst: 21.11.2006, 16:35
von Fridaynite
Update.
Habe grade ein paar Links eingefügt. insgesamt sind es glaub ich 60 Patente, die sich mit dem Thema beschäftigen. Auch eins von Microsoft ;-)

Duplicate Content Strafe vermeiden

Verfasst: 03.01.2007, 09:58
von swabian
Sorry, daß ich diesen älteren Beitrag nochmal vorhole.
Aber ich hab jetzt hier genau nach diesem Thema gesucht und wollte keinen extra aufmachen, da hier von Fridaynite ja im Prinzip schon alles verständlich erklärt wurde.

Dennoch, mach ich mir grad so meine Gedanken was wohl mit den Seiten passiert, die jetzt zum Beispiel die XML-Produktdaten von Affili.net original wie Sie kommen einbinden oder gar ein Script wie den Affilinator benutzen.

Ich finde in letzter Zeit viele solcher Seiten und manchmal gar nicht schlecht gelistet. Obwohl die Layouts sowie Inhalte ja fast identisch sind. Somit purer Doppelter Content, sogar das URL-Design nach der Domain ist meist gleich.

Was passiert mit solchen Seiten? Lohnt sich sowas überhaupt?

Grüße Swabian

Verfasst: 03.01.2007, 11:21
von NeMeRo
Bei uns sind in letzter Zeit 2 Seiten rausgefallen, die nicht-unique Content drin haben.
Nun ja, rausgefallen nicht wirklich, aber nach >500 weg-gereicht.