ole1210 hat geschrieben:Habs jetzt nicht getestet, kann daher nichts zur Funktionsweise sagen, aber hab da doch zwei Fragen:
1.: Woher weisst du, was google als strafbaren DC erkennt?
Ausser Google selbst kann das niemand wissen (zumal sich das ja auch öfters ändert).
Die Vorgehensweise von dem Skript ist hier beschrieben:
https://www.anotherseodomain.com/de/bei ... check.html
(Im Quelltext des Skripts sind noch mehr Infomationen in Form von Kommentaren).
Um es grob zusammenzufassen: Aus zehn unterschiedlichen Stellen des Textes werden Textschnipsel (aus jeweils 5 Wörtern) extrahiert. Wenn von diesen 10 Stichproben mindestens zwei auch auf einer anderen Webseiten vorhanden sind, dann wird für diese eine Verdachts-Meldung ausgegeben.
Im Quellcode sind auch Funktionen vorhanden, mit denen es möglich ist den gesamten Text (und nicht nur 10 Stichproben) zu checken und die prozentuale Ähnlichkeit zu berechnen (nur werden im jetzigen Beispiel-Skript diese Funktionen nicht aufgerufen).
Theoretisch könnte man das so umstricken, dass erst ab einem User-definierten Prozent-Wert gewarnt wird.
ole1210 hat geschrieben:2.: Kannst du das Tool nicht mit nen Crawler koppeln? Dann sehe ich, wer meinen Content klaut.
Das Tool gibt jetzt schon aus, welche genauen Homepage-URLs mindestens zwei Textschnipsel enthalten, die auch auf der Original-Seite enthalten sind.
Einen Crawler bräuchte man nur noch für einen prozentualen Ähnlichkeitsvergleich (die Vergleichs-Funktion ist schon implementiert, wird nur nicht aufgerufen).
Ursprünglich wollte ich nur das PHP-Skript mit einer kleinen Anleitung publizieren, damit sich da Webmaster ihre eigenen DC-Checks draus stricken können.
Aber ich sehe schon, die Leute wollen fertige Lösungen.
Ich hätte ein paar kleine Rückfragen an die Mitlesenden:
Welcher Anwendungsfall interessiert euch am meisten?
1) Ein PHP-Skript, dass automatisch jede Nacht auf eurem Server läuft und
im Falle von DC euch anmailt
2) Ein Windows-Programm mit GUI, bei welchem ihr die Startseite eurer Homepage angebt, und das dann alle Unterseiten crawlt und auf DC checkt
3) Eine HTML-Oberfläche
4) Eine Lösung die man in Artikel-Verzeichnisse o.ä. integrieren könnte
5) Garnichts, ihr haltet automatisierte Duplicate Content - Checks für unnötig oder habt schon eure eigene Lösung
In der jetzigen Version hat mir die ganze Sache kaum Arbeit gemacht, weil ich nur ein älteres, für mich selbst verfasstes Skript ein bisschen kommentiert und in einer bestimmten Version veröffentlicht habe.
Erweiterungen würde ich nur vornehmen, falls es überhaupt genug Interessenten gibt.