Backlink crawler

Beitrag von **maniac** » 03.03.2013, 11:24

Hallo,

um Backlinks zu testen, ob sie noch gesetzt sind, habe ich einen crawler geschrieben.

Grob gesagt, wenn mein Link gesetzt ist, gib "ok" aus.

Ich habe die Möglichkeit einen useragent und einen referer mit zusenden.
Es ist nicht nett, einem anderen Webseitenbetreiber vor zu machen, mein crawler sei ein User.

Google macht es uns ja im useragent folgendermaßen vor:
Mozilla/5.0 (compatible;
Googlebot/2.1;
+https://www.google.com/bot.html)

referer ist logischerweise leer.

So könnte ich ja folgendes eintragen:
Mozilla/5.0 (compatible;
Backlink crawler/1.0;
+https://www.meineseite.de)

und referer leer lassen.

Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.

von **Anzeige von ABAKUS** »

Beitrag von **Melegrian** » 03.03.2013, 12:02

maniac hat geschrieben:So könnte ich ja folgendes eintragen:
Mozilla/5.0 (compatible;
Backlink crawler/1.0;
+https://www.meineseite.de)

Würde da noch eine Seite mit einer kurzen Beschreibung hinzufügen. Mache ich zumindest so, wenn ich ein Script vorstelle.

Code: Alles auswählen

Mozilla/5.0 &#40;compatible; Backlink crawler/1.0; +http&#58;//www.meineseite.de/beschreibung.html&#41;

maniac hat geschrieben:Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.

Du crawlest doch nicht die ganzen Seiten, du rufst doch sicherlich nur gelegentlich die Seiten auf, die einen Backlink zu Deinen Seiten enthalten oder wie? Ich wüsste nicht, was dagegen sprechen sollte. Außerdem, soweit ich weiß, gibt es beim Scrapen und Crawlen kaum Einschränkungen, so lange keine Rechte verletzt werden.

Beitrag von **nerd** » 03.03.2013, 12:12

maniac hat geschrieben: Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.

Unsinn - natuerlich "liest" du den inhalt; wieso wuerdest du ihn sonst crawlen wollen.

von **Anzeige von ABAKUS** »

Beitrag von **maniac** » 03.03.2013, 12:24

nerd hat geschrieben: Unsinn - natuerlich "liest" du den inhalt; wieso wuerdest du ihn sonst crawlen wollen.

Wenn ein Betreiber nicht möchte, dass man seine Inhalte nicht liest, sollte er am besten lokal hosten

Ja, ist alles Ansichtssache.
Aber ich danke Euch beiden für Eure schnelle Hilfe!

Beitrag von **Melegrian** » 03.03.2013, 12:26

Ja, einlesen tust Du den Inhalt schon, anders geht es ja nicht. Doch wenn Du nur einmal im Monat eine URL/Seite mit einem Backlink aufrufst, fällt das ja nicht weiter zur Last.

Beitrag von **maniac** » 03.03.2013, 12:34

Bei einem anderen Webseiten Projekt habe ich so eine Funktion nicht eingebaut.
Nun verweisen einige Backlinks auf "Server nicht gefunden" oder die Domains werden umgeleitet auf andere Seiten.

Nun habe ich auch ein Feld mit den Kontakt Daten eingebaut, wenn mal was sein sollte und den Check eben.

Bei normalen Links "interessante Links für meine Besucher" checke ich bei Bedarf auf die Erreichbarkeit der Domain.

Da bekomme ich selbst die Krise, wenn ich auf eine Seite gehe und mir die tollen Links anschaue und ein paar ins Nirwana führen.

Beitrag von **Melegrian** » 03.03.2013, 13:07

maniac hat geschrieben:Bei normalen Links "interessante Links für meine Besucher" checke ich bei Bedarf auf die Erreichbarkeit der Domain.

Dazu sollte es reichen, statt GET oder POST eventuell Head als Request-Methode zu benutzen, um nur den Header mit Statuscodes abzurufen.

Beitrag von **maniac** » 03.03.2013, 13:20

ich mach das mit curl,
$status = curl_getinfo($ch, CURLINFO_HTTP_CODE);

geht wunderbar.

Beitrag von **Melegrian** » 03.03.2013, 13:34

maniac hat geschrieben:ich mach das mit curl,

Ja, damit geht es.

Hatte mal etwas anderes probiert und ein Demo-Script gefertigt, wenn Du da statt GET einfach HEAD einfügst, antwortet der Server auch nur mit einem Header.

Code: Alles auswählen

$request  = "HEAD ".$this->seite." HTTP/1.1\r\n";

Da habe ich jetzt beim User Agent keine Seite angegeben, weil ich nicht weiß, wer da mal mit rumspielen könnte.