Seite 1 von 3

Biete: PHP-Skript um Duplicate Content zu finden

Verfasst: 12.07.2007, 10:31
von Datibesol
Für die Leute, die immer noch manuell ihre Webseiten auf Duplicate Content überwachen, habe ich mal ein kleines (kostenloses) PHP-Skript geschrieben:
https://www.anotherseodomain.com/de/ueb ... check.html

Ist ausführlich kommentiert, so dass man es leicht an eigene Zwecke anpassen kann. Weitere Infos stehen auf der Webseite.

Besonders interessant wird es, wenn man das Skript zur Automatisierung einsetzt. So könnte man z.B. jede Nacht den Server einen Cronjob ausführen lassen, der nach DC der eigenen Seite sucht.

Verfasst:
von

Verfasst: 12.07.2007, 10:47
von Michael1967
Wie muss ich das aufrufen?

Komandozeile von was?

Verfasst: 12.07.2007, 10:53
von Datibesol
Unter Linux: Von der Shell aus
Unter Windows: Von der Dos-Box aus oder über "Befehl ausführen"

Du kannst aber auch die ersten Zeilen des Skripts so umschreiben, dass es stattdessen eine GET-Variable aus einem HTTP-Request nimmt.

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 12.07.2007, 18:23
von Michael1967
Dos-Box?

Verstehe ich nicht, dann läd er das als Textdatei.

Wie genau sieht der Aufruf in der Dos-Box aus?

Sorry, hat sich erledigt. Lesen bildet *gg*

Re: Biete: PHP-Skript um Duplicate Content zu finden

Verfasst: 12.07.2007, 21:51
von Gast
Datibesol hat geschrieben:Für die Leute, die immer noch manuell ihre Webseiten auf Duplicate Content überwachen, habe ich mal ein kleines (kostenloses) PHP-Skript geschrieben:
https://www.anotherseodomain.com/de/ueb ... check.html

Ist ausführlich kommentiert, so dass man es leicht an eigene Zwecke anpassen kann. Weitere Infos stehen auf der Webseite.

Besonders interessant wird es, wenn man das Skript zur Automatisierung einsetzt. So könnte man z.B. jede Nacht den Server einen Cronjob ausführen lassen, der nach DC der eigenen Seite sucht.
naja. idee gut - umsetzung geht so... geht doch sicher auch einfacher ... so mit fensterchen zum was eingeben..

aber gleich nen fass mit noch ne seo seite aufmachen... iss schon hart:-))
alles wird gut.

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Re: Biete: PHP-Skript um Duplicate Content zu finden

Verfasst: 13.07.2007, 08:47
von Datibesol
SEO-SCHMIED hat geschrieben:naja. idee gut - umsetzung geht so... geht doch sicher auch einfacher ... so mit fensterchen zum was eingeben..
Wie auf der Seite beschrieben wird, geht es nur drum, die Logik zu demonstrieren wie so etwas funktioniert - damit Leute das für ihre eigenen Zwecke anpassen können.
Die Intention war nicht, eine bunte Windows GUI zu präsentieren; sondern ein Skript, das man mit wenigen Anpassungen auch auf einem Server laufen lassen könnte.

SEO-SCHMIED hat geschrieben:aber gleich nen fass mit noch ne seo seite aufmachen... iss schon hart:-))
alles wird gut.
Also ich wüsste nicht wo ich da ein "Fass" aufgemacht hätte.

Ich hätte die Erklärungen + das Skript auch auf eine meine anderen Domains legen können, nur hätte das thematisch absolut nicht gepasst.

Das Skript ist kostenlos - du kannst es benutzen oder es ignorieren.

Verfasst: 13.07.2007, 08:53
von Michael1967
Ja genau. Warum eigentlich nicht? Ich sehe hier kein Fass das aufgemacht wurde. Und außerdem ist es jawohl seine Sache, ob er eine neue Seite eröffnet oder nicht.

Verfasst: 13.07.2007, 12:51
von Gast
Michael1967 hat geschrieben:Ja genau. Warum eigentlich nicht? Ich sehe hier kein Fass das aufgemacht wurde. Und außerdem ist es jawohl seine Sache, ob er eine neue Seite eröffnet oder nicht.
klar - und es ist doch meine sache - wie ich darüber denke oder argumentiere ?

Mimosen Day hier, oder was ?

Verfasst: 13.07.2007, 13:50
von net(t)worker
SEO-SCHMIED hat geschrieben:klar - und es ist doch meine sache - wie ich darüber denke oder argumentiere ?

Mimosen Day hier, oder was ?
wie du darüber denkst ist wirklich deine Sache, bei der Argumentation spielen dann aber auch wieder ein paar Regeln bezüglich Sachlichkeit und freundlichen Umgangston eine Rolle.

Ich weis, dass hier der Umgangston nicht unbedingt der freundlichste ist, aber das bedeutet nicht, dass dies gutgeheißen wird... im Gegenteil, wir sind dabei hier ein bissl gegenzusteuern...

arbeite du da noch ein wenig dran und alles wird gut... :wink:

Verfasst: 13.07.2007, 14:38
von ole1210
Habs jetzt nicht getestet, kann daher nichts zur Funktionsweise sagen, aber hab da doch zwei Fragen:

1.: Woher weisst du, was google als strafbaren DC erkennt?

2.: Kannst du das Tool nicht mit nen Crawler koppeln? Dann sehe ich, wer meinen Content klaut.

Verfasst: 13.07.2007, 15:20
von Datibesol
ole1210 hat geschrieben:Habs jetzt nicht getestet, kann daher nichts zur Funktionsweise sagen, aber hab da doch zwei Fragen:

1.: Woher weisst du, was google als strafbaren DC erkennt?
Ausser Google selbst kann das niemand wissen (zumal sich das ja auch öfters ändert).

Die Vorgehensweise von dem Skript ist hier beschrieben:
https://www.anotherseodomain.com/de/bei ... check.html
(Im Quelltext des Skripts sind noch mehr Infomationen in Form von Kommentaren).
Um es grob zusammenzufassen: Aus zehn unterschiedlichen Stellen des Textes werden Textschnipsel (aus jeweils 5 Wörtern) extrahiert. Wenn von diesen 10 Stichproben mindestens zwei auch auf einer anderen Webseiten vorhanden sind, dann wird für diese eine Verdachts-Meldung ausgegeben.

Im Quellcode sind auch Funktionen vorhanden, mit denen es möglich ist den gesamten Text (und nicht nur 10 Stichproben) zu checken und die prozentuale Ähnlichkeit zu berechnen (nur werden im jetzigen Beispiel-Skript diese Funktionen nicht aufgerufen).
Theoretisch könnte man das so umstricken, dass erst ab einem User-definierten Prozent-Wert gewarnt wird.

ole1210 hat geschrieben:2.: Kannst du das Tool nicht mit nen Crawler koppeln? Dann sehe ich, wer meinen Content klaut.
Das Tool gibt jetzt schon aus, welche genauen Homepage-URLs mindestens zwei Textschnipsel enthalten, die auch auf der Original-Seite enthalten sind.
Einen Crawler bräuchte man nur noch für einen prozentualen Ähnlichkeitsvergleich (die Vergleichs-Funktion ist schon implementiert, wird nur nicht aufgerufen).


Ursprünglich wollte ich nur das PHP-Skript mit einer kleinen Anleitung publizieren, damit sich da Webmaster ihre eigenen DC-Checks draus stricken können.
Aber ich sehe schon, die Leute wollen fertige Lösungen.
Ich hätte ein paar kleine Rückfragen an die Mitlesenden:

Welcher Anwendungsfall interessiert euch am meisten?
1) Ein PHP-Skript, dass automatisch jede Nacht auf eurem Server läuft und
im Falle von DC euch anmailt
2) Ein Windows-Programm mit GUI, bei welchem ihr die Startseite eurer Homepage angebt, und das dann alle Unterseiten crawlt und auf DC checkt
3) Eine HTML-Oberfläche
4) Eine Lösung die man in Artikel-Verzeichnisse o.ä. integrieren könnte
5) Garnichts, ihr haltet automatisierte Duplicate Content - Checks für unnötig oder habt schon eure eigene Lösung

In der jetzigen Version hat mir die ganze Sache kaum Arbeit gemacht, weil ich nur ein älteres, für mich selbst verfasstes Skript ein bisschen kommentiert und in einer bestimmten Version veröffentlicht habe.
Erweiterungen würde ich nur vornehmen, falls es überhaupt genug Interessenten gibt.

Verfasst: 13.07.2007, 15:27
von Michael1967
1) Ein PHP-Skript, dass automatisch jede Nacht auf eurem Server läuft und
im Falle von DC euch anmailt

3) Eine HTML-Oberfläche

4) Eine Lösung die man in Artikel-Verzeichnisse o.ä. integrieren könnte

Jepp!

Verfasst: 13.07.2007, 23:36
von Gast
net(t)worker hat geschrieben:
SEO-SCHMIED hat geschrieben:....

arbeite du da noch ein wenig dran und alles wird gut... :wink:
naja. idee gut - umsetzung geht so... geht doch sicher auch einfacher ... so mit fensterchen zum was eingeben..

aber gleich nen fass mit noch ne seo seite aufmachen... iss schon hart:-))
alles wird gut.

Dann bitte ich mal dezent darum

DEN TEIL DER UNFREUNDLICH WAR - ROT - ANZUMALEN
DEN UNSACHLICHEN BLAU oder sonstwie

Man könnte fast den eindruck haben - dir gehts darum deine posting statistik zu pushen ?

was ist unsachlich wenn ich anspreche das das eben auch besser ginge ?
wo war der faupin wenn ich das schreibe...

kein arsch penner sack doofmann - nichts dergleichen drin... also wo genau war ich bitte unfreundlich ?

und du als weitdenker der gegensteuert - dann sollsteste auch in die richtung gegensteuern - das eben nicht jeder mit der linux konsole umgehen mag - und das sicher vom ablauf nicht jedem geläufig ist wie das tool zu bedienen wäre

und nen fass aufmachen... hallo... kommt mal auf den teppich... man kann sich seine gründe an denen man sich festbeissen will auch selber zusammenschustern.

in dem sinne

Verfasst: 14.07.2007, 01:38
von net(t)worker
SEO-SCHMIED hat geschrieben: Dann bitte ich mal dezent darum

DEN TEIL DER UNFREUNDLICH WAR - ROT - ANZUMALEN
DEN UNSACHLICHEN BLAU oder sonstwie
hmm... du sagtest, dass es deine Sache sei was du denkst und wie du argumentierst... daraufhin habe ich dazu meinen Kommentar abgelassen... und genauso wie deine Aussage war meine nicht auf diesen Thread beschränkt....

Verfasst: 14.07.2007, 15:37
von ESeoC
Idee gut, wie sieht es mit der Umsetzung aus?
Erwarten keine Wunder von einer Einzelperson.

Interessant wäre noch:
1) Ein PHP-Skript, dass automatisch jede Nacht auf eurem Server läuft und
im Falle von DC euch anmailt

3) Eine HTML-Oberfläche