Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Die Grenzen der Suchmaschinen

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
Pamela
PostRank 4
PostRank 4
Beiträge: 117
Registriert: 08.12.2004, 01:19

Beitrag von Pamela » 25.11.2006, 18:29

Ich glaube nicht, dass es irgendeiner Suchmaschinen jemals gelingen wird, doppelten Content auch nur ansatzweise vollständig zu erkennen. Mehr als ein "stochern im Heuhaufen" kann das ganze nicht sein und meine Erfahrungen bestätigen dies.

Um von sich behaupten zu können, dass man alle doppelten Inhalte findet, müsste man jede Webseite weltweit mir jeder anderen Seite vergleichen.

Keine Ahnung wie viele HTML-Seiten es weltweit gibt, aber wenn man als Schätzwert 100.000.000 Seiten annimmt, müsste man nun die Fakultät aus der Zahl 100.000.000 berechnen und diese Zahl ist so gigantisch groß, dass die Festplatte des Abakus-Servers nicht ausreichen würde um diese Zahl auszuschreiben.

Ich glaube hier sind einfach Grenzen gesetzt, die nicht zu überwinden sind und meine Erfahrungen bestätigen dies.

Gruß Pam

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

heinrich
PostRank 9
PostRank 9
Beiträge: 2764
Registriert: 17.08.2006, 10:26

Beitrag von heinrich » 25.11.2006, 18:43

Pamela hat geschrieben:Ich glaube nicht, dass es irgendeiner Suchmaschinen jemals gelingen wird, doppelten Content auch nur ansatzweise vollständig zu erkennen.
Ich denke, es muss dafür nicht eine Seite mit allen anderen verglichen werden, vielmehr braucht man - schließlich sind die Seiten ja indexiert - nur einen Grenzwert von sagen wir 5 oder 10 Begriffen festlegen, die sich überschneiden müssen. Vorab kann man natürlich auch alle Seiten aus anderen Sprachen ausschließen usw. Durch einen geeigneten Algorithmus kann man den notwendigen Aufwand sicher weiter reduzieren. Außerdem dürfte jeder Bot ja auch prüfen, ob eine Seite unverändert ist oder nicht. Das wäre dann ja der Fall und bei einer unterschiedlichen IP könnte er Alarm schreien. Nur so ein paar Ideen - reines Probieren, wie du es annimmst, hat natürlich keine Chance.

Fox Mulder
PostRank 8
PostRank 8
Beiträge: 804
Registriert: 16.11.2004, 09:06

Beitrag von Fox Mulder » 25.11.2006, 19:03

Pamela hat geschrieben:Um von sich behaupten zu können, dass man alle doppelten Inhalte findet, müsste man jede Webseite weltweit mir jeder anderen Seite vergleichen.
Es gibt effizientere Lösungsansätze die Du aus den Google Patenten entnehmen kannst:
Detecting duplicate and near-duplicate files
System and method for detecting duplicate and similar documents
Gruss