Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
Ich denke, es muss dafür nicht eine Seite mit allen anderen verglichen werden, vielmehr braucht man - schließlich sind die Seiten ja indexiert - nur einen Grenzwert von sagen wir 5 oder 10 Begriffen festlegen, die sich überschneiden müssen. Vorab kann man natürlich auch alle Seiten aus anderen Sprachen ausschließen usw. Durch einen geeigneten Algorithmus kann man den notwendigen Aufwand sicher weiter reduzieren. Außerdem dürfte jeder Bot ja auch prüfen, ob eine Seite unverändert ist oder nicht. Das wäre dann ja der Fall und bei einer unterschiedlichen IP könnte er Alarm schreien. Nur so ein paar Ideen - reines Probieren, wie du es annimmst, hat natürlich keine Chance.Pamela hat geschrieben:Ich glaube nicht, dass es irgendeiner Suchmaschinen jemals gelingen wird, doppelten Content auch nur ansatzweise vollständig zu erkennen.
Es gibt effizientere Lösungsansätze die Du aus den Google Patenten entnehmen kannst:Pamela hat geschrieben:Um von sich behaupten zu können, dass man alle doppelten Inhalte findet, müsste man jede Webseite weltweit mir jeder anderen Seite vergleichen.
Jep! Da liegst du richtig. Es werden (n-1)+(n-2)+(n-3)+...+(n-n) < n² Vergeliche benötigt.man muss auf der Suche nach DC nicht jedes Dokument mit jeder möglichen Kombination aller anderen Dokumente vergleichen, sondern nur mit jedem anderen.
Richtig. Deswegen auch der Vorschlag, für jedes Dokument verschiedene Hash-Werte zu berechnen. (Titel + Description, einzelne Absätze usw.) Im Übrigen wird das der Grund sein, dass Google trotzdem große Probleme hat, DC zuverlässig aufzuspüren.k-weddige hat geschrieben: Da liegst du aber ganz weit daneben, Schalberger.
Wenn die Dateien 100% identisch sind, ist die Idee mit den Hashwerten super, aber sobald sie nur leicht abgewandelt sind kommst du da nicht weiter.
/*IRONIE*/google kauft sich 1.000.000 indische Kindersklaven und setzt sie an 1.000.000 Rechner. Jeder muß 20 h am Tag alle 20 Sekunden ne neue Website aufrufen. Wenn er ein Duplikat entdeckt bekommt er ne Handvoll Reis. Was denkst Du, wie schnell die das rausfinden?Pamela hat geschrieben:...
Keine Ahnung wie viele HTML-Seiten es weltweit gibt, aber wenn man als Schätzwert 100.000.000 Seiten annimmt, müsste man nun die Fakultät aus der Zahl 100.000.000 berechnen und diese Zahl ist so gigantisch groß, dass die Festplatte des Abakus-Servers nicht ausreichen würde um diese Zahl auszuschreiben.
Ich glaube hier sind einfach Grenzen gesetzt, die nicht zu überwinden sind und meine Erfahrungen bestätigen dies.
...