content-dubletten: wie gross darf ein textblock sein?

Beitrag von **Scubi** » 19.09.2004, 09:22

Moin Pagemaker,

Es ging darum ob Google doppelten Text erkennt oder nicht.
Nicht darum wie ich meine Seiten erstelle.
Aber evtl. wirst Du es selber erkennen, wenn Du in Ruhe einen Becher Kaffee getrunken hast.

Manchmal wirkt es Wunder, Texte zweimal zu lesen.

Gruß Scubi

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von HW » 19.09.2004, 09:52

Wie mir scheint, hat Pagemaker das Thema nicht verstanden und sich gerade über einen Content-Klauer geärgert.

Beitrag von **ff-webdesigner** » 19.09.2004, 11:13

wow...saubere inspiration, jungens!

und wie erwartet: sehr unterschiedliche meinungen. bei meinen vermutungen zum dublettenerkennen gehe ich aus von meinen bescheidenen datenbank-kenntnissen.

ein direkter vergleich mehrerer datensätze nach bestimmten zeichenfolgen oder auch wörtern kostet z.b. bei mysql sehr schnell grosse teile der verfügbaren rechenpower, online bremsen solche vergleicher häufig den seiten-aufbau von hps deutlich aus.

wie beurteilt ihr den rechenaufwand zwischen reiner indizierung und dem erkennen von dubletten? is natürlich schwer zu sagen, da man etwas über die tiefe des dublettenalgos wissen müsste.

aber nehmen wir mal nur an: einfach einen textblock mit 3 sätzen als dublette erkennen. der aufwand müsste doch dann sein wie folgt: betreffende seite muss mit dem gesamten google-datenbestand abgeglichen werden (externe dubletten) oder zumindest die ganze eigenen hp gegeneinander vergleichen (interne dubletten). allein letzterer fall dürfte aber schon einen höllischen aufwand bedeuten.

von **Anzeige von ABAKUS** »

Beitrag von HW » 19.09.2004, 11:45

@ff-webdesigner
Mach Dir mal keine Sorgen um die Rechenpower für den Vergleich. Hier im Internet gibts doch sogar einen Service mit dem Du doppelten Content aufspüren kannst. Das Teil ist sogar recht flott. Leider habe ich den Link gerade nicht parat.

Beitrag von **Southmedia** » 19.09.2004, 12:07

copyscape.com und das basiert auf Google

Beitrag von **Pagemaker** » 19.09.2004, 13:27

@- Scubi:

Scubi,
ich gebe es auf, denn Dir ist nicht mehr zu helfen.
Deine Zeilen habe ich schon verstanden, eher Du meine nicht.
Noch genauer werde ich es nicht schreiben, denn dann wäre das hier eine Parteischule für Unternehmer - Thema:
Wie werde ich Unternehmer, wie baue ich ein Geschäft auf, wie vermeide ich daß die Konkurrenz nicht nur meine Ideen klaut, sondern auch mein Content - Abwehrmaßnahmen.
Amen.

Gruß v. "Pagemaker"
.

Beitrag von **rocker** » 19.09.2004, 20:27

Ich komme aus einer anderen Branche..aber die meisten Computershops holen sich per Parser den Textinhalt inkl. Bilder.
Bei 20.000 Artikeln hat man da auch kaum ne andere Möglichkeit.

Dann schreibe doch über Deine Branche. Es gibt viele andere Möglichkeiten.

Stellt Euch mal vor..Google würde alle Artikel eines Herstellers die doppelt vorkommen filtern. Dann könnten wohl alle Shops zumachen. Ist doch überall der selbe Text drinne

Ja richtig, wenn die nur das Design des Herstellers ändern können Sie auch Dicht machen!

Natürlich erkennt google doppelten Content.
Wenn ein Textblock gleich ist gibt es ein Problem.
Um so länger der Text um so schlimmer.
Deshalb reagiert Andreas wohl auch so allergisch auf Contentklauer.
Das sehe ich bei meinen Contetseiten genauso.
Bei den PPs möge der bessere Versifikator gewinnen.

Grüße Daniel

Beitrag von **Jaro** » 19.09.2004, 20:58

Beispiel 1: (Wikipedia)
https://www.google.de/search?hl=de&ie=U ... edia&meta=

Beispiel 2: (SelfHTML)
https://www.google.de/search?q=text+aus ... art=0&sa=N

Alles Mirrors (also Doubleten) die im Index teils sogar besser platziert sind als die Originalseite.

Ich frage nochmal ob mir jemand knapp erklären kann, wo denn dieser Doubleten-Filter in den beiden Beispielen sein soll?

Jaro

Beitrag von **rocker** » 19.09.2004, 21:41

Hallo Jaro,

Wenn du nach SelfHTML suchst wirst Du auch nur SelfHTML finden

Schau mal hier https://www.google.de/search?hl=de&ie=U ... ten+&meta=
Nur noch 2 mal Selfhtml und mit verschiedenen Unterseiten.
Wo sind denn die Anderen???

Beitrag von **Hasso** » 19.09.2004, 21:45

Hallo!

Jaro hat geschrieben: Ich frage nochmal ob mir jemand knapp erklären kann, wo denn dieser Doubleten-Filter in den beiden Beispielen sein soll?
Jaro

Also erstmal gibt es keinen 'Dubletten-Filter' in dem Sinne. Es steht überhaupt nicht zu Diskussion, dass im 'Google Index' sehr viel Kontext Doppelt vorhanden ist, das Entscheidende dabei ist die tiefere Analyse kompletten Strukturen in mehreren Durchläufen nach der halt über die Einzigartigkeit der Ressource entschieden wird. Hier soll auch auf keinem Fall die Seite gleich aus dem Index fliegen, im Gegenteil im meisten Fällen wird die Seite intern 'entsprechend behandelt'.
Solche Fragen wie hier oft gestellt werden wie 'Wie viel Prozent darf ich an doppelten Kontext den haben? usw. etc.' lassen sich aus verständlichen Gründen nicht beantworten.

Ist wie immer nur meine Persönlichen Meinung

Grüsse
Hasso

Beitrag von **Scubi** » 19.09.2004, 23:45

Hallo,

hier mal ein Beispiel.
Ich nutze mal die Computerbranche, weil es davon so schön viele Shops gibt, mit relativ viel Text durch die Artikelbeschreibung.
Großhändler xyz hat in seinem Shopsystem 20.000 Artikel.
Händler A und B setzen den identischen Shop ein.

Händler A installiert seinen Shop haut ein standard Design drauf und importiert die 20.000 Artikel vom Großhändler. Nimmt keine weiteren Änderungen vor.

Händler B installiert seinen Shop, baut ein eigenes Design..baut Tabellen für Produktansicht um läßt Dynamisch andere Titel und Description generieren. Importiert die 20.000 Artikel. Ändert aber am eigentlichen Textinhalt nichts, weil der Aufwand zu hoch ist.

Google Spidert alle 3 Seiten fein durch und zeigt Sie auch.

Welche der 3 Seiten hier wo in Google zu finden ist, ist egal...denn es ging am Anfang nur darum....wieviel Text oder ab welcher Größe der Textblöcke gefiltert wird.

Hat Händler B in seinem Shop aber noch ein paar Tips aus diesem Forum beherzigt, wird er vermutlich vor dem Großhändler und Händler A zu finden sein.

Soviel aus der Praxis.

Gruß Scubi

Beitrag von **Pagemaker** » 19.09.2004, 23:56

@- rocker:

Rocker,
über Dich habe ich grinsen müssen.
Genauso ist es, Du hast es gepackt und mich durchschaut.
Mir will nicht in das Hirn, warum sich andere Leute so schwer tun, Logik einzusetzen und unternehmerisch zu denken.
Naja, was soll's, ich habe auch meine Schwächen, wenn ich ehrlich bin.
So habe ich mit manchen Programmen meine Probleme und kann dann auch nur doof fragen.
Was mir auf den Keks geht, sind Fragen die gestellt werden, und zum Schluß wissen die es dann doch angeblich besser.
Ich poste doch nicht aus Langeweile einfach Blödsinn, ich denke mir doch was dabei und habe dieses - jenes Problem schon getestet.
Wenn ich helfen kann, helfe ich (im bekannten eingeschränktem Rahmen), um bei einem Problem auch einmal um Hilfe schreien zu können, wie letztlich wegen meinem Problem mit dem Server.

Es grüßt Dich Andreas - "Pagemaker"
.

Beitrag von **rocker** » 20.09.2004, 01:41

@Scubi

Soviel aus der Praxis

Ich dachte Du kommst aus einem anderen Bereich?
Was möchtest Du uns mit Deinen Vermutungen sagen?

Es ist so:
Größhandler xyz hat ein schlechtes CMS und wird nicht gefunden,
nur deshalb gibt er die Daten raus!

Weitere Händler gibt es nicht, A B und weitere sind SEOs (Spammer oder was auch immer.)

Wenn A und B die gleiche Shopping Software benutzen kommen bald 25 Andere mit der Gleichen Software.
Danach kommt Z mit seiner eigenen und überholt die A bis Y, weil er einzigartiger ist. (Ich weiss, Einzigartig kann man nicht steigern..)

Und xyz und Z ist es egal ob A-Y ausgeblendet werden!

Deshalb schrieb ich ja auch:

möge der bessere Versifikator gewinnen

(Das Wort habe ich glaube ich hier aufgeschnappt und soll unterschiedlich machen bedeuten)

Das von Dir angesprochene Ändern des Titels ist z.B. keine Designänderung, sonden geht schon in die richtige Richtung.

@all
ich bleibe dabei: Dubletten sind schlecht und google ist nicht so blöde das nicht zu bemerken.
Dank copyscape finden es jetzt auch die Seitenbesitzer sehr leicht.
(Deshalb keinen einzigartigen Content klauen, sonst gibt es was auf die Mütze.)
Wenn man freien Content benutzt sollte sollte man sich schon durch mehr als nur das Design von den Mitbewerbern abheben.
Und auch auf einer URL sollten die Seiten untereinamder nicht zu gleich sein.

@Pagemaker
Danke für die aufmunternden Worte. Das ich Dich durschaut habe ist wohl ein wenig übertrieben.
Ich versuche auch nur zu posten wenn ich meine etwas vom Thema zu verstehen. Bei Deinem Server konnte ich Dir leider nicht helfen...

Grüße Daniel

Beitrag von **Scubi** » 20.09.2004, 02:34

@rocker

"Soviel aus der Praxis" bezog sich nicht auf die Computerbranche..sondern auf die allgemeine Praxis. Denn letztendlich ist es egal ob man es so mit PC Shops, Erotik Shops, T-Shirt Shops, Nachrichtenseiten, Webkatalogen etc. macht. Die Vorgehensweise ist überall die selbe. In diesem Fall gibt der Großhändler die Daten nicht raus weil er ein schlechtes CMS hat, sondern weil es im Grunde ein Partnerprogramm ist. A B sind in der Tat Spammer.

Zitat:
Was möchtest Du uns mit Deiner Aussage sagen?

Ich wollte noch mal ein Beispiel geben..um klar zu machen..das auch große doppelte Textblöcke in de Index gelangen. Aus diesem Grunde habe ich wie oben geschrieben, die Computerbranche als Beispiel genommen.

Mit der Designänderung war in diesem Fall nicht das Grafische herumspielen gemeint, sondern das Designen der Tabellen, Produktausgabe etc. Das gehört durchaus zum Designen einer Webseite.

Leider verwechseln viele Menschen Webdesign mit Grafikdesign.

In allem ab @all gebe ich Dir durchaus recht.

Gruß Scubi

Beitrag von pi » 22.09.2004, 19:02

zurück zu den Doubletten:

Ich hatte mal einige Tests gemacht:

Bei 2 Seiten mit exakt gleichem Textblock wurde 1 Seite gefiltert.
Nachdem nur 1 Wort abgeändert wurde, war die Seite wieder drin.

Es existiert ein zweiter Filter:

Und zwar einer der nicht nur offentsichtlichen Text vergleicht, sondern auch die Quelltexte!

zum Versuch: 5 exakt identische Seiten wurden ins Netz gestellt. 1 wurde gelistet!
Nachdem bei den anderen 4 Seiten, jeweils eine *.gif Grafik als Aufzählungszeichen mehr eingefügt wurde, waren alle 5 Seiten drin.