Seite 1 von 1

Backlink crawler

Verfasst: 03.03.2013, 11:24
von maniac
Hallo,

um Backlinks zu testen, ob sie noch gesetzt sind, habe ich einen crawler geschrieben.

Grob gesagt, wenn mein Link gesetzt ist, gib "ok" aus.

Ich habe die Möglichkeit einen useragent und einen referer mit zusenden.
Es ist nicht nett, einem anderen Webseitenbetreiber vor zu machen, mein crawler sei ein User.

Google macht es uns ja im useragent folgendermaßen vor:
Mozilla/5.0 (compatible;
Googlebot/2.1;
+https://www.google.com/bot.html)

referer ist logischerweise leer.

So könnte ich ja folgendes eintragen:
Mozilla/5.0 (compatible;
Backlink crawler/1.0;
+https://www.meineseite.de)

und referer leer lassen.

Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.

Verfasst:
von

Re: Backlink crawler

Verfasst: 03.03.2013, 12:02
von Melegrian
maniac hat geschrieben:So könnte ich ja folgendes eintragen:
Mozilla/5.0 (compatible;
Backlink crawler/1.0;
+https://www.meineseite.de)
Würde da noch eine Seite mit einer kurzen Beschreibung hinzufügen. Mache ich zumindest so, wenn ich ein Script vorstelle.

Code: Alles auswählen

Mozilla/5.0 (compatible; Backlink crawler/1.0; +http://www.meineseite.de/beschreibung.html)
maniac hat geschrieben:Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.
Du crawlest doch nicht die ganzen Seiten, du rufst doch sicherlich nur gelegentlich die Seiten auf, die einen Backlink zu Deinen Seiten enthalten oder wie? Ich wüsste nicht, was dagegen sprechen sollte. Außerdem, soweit ich weiß, gibt es beim Scrapen und Crawlen kaum Einschränkungen, so lange keine Rechte verletzt werden.

Re: Backlink crawler

Verfasst: 03.03.2013, 12:12
von nerd
maniac hat geschrieben: Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.
Unsinn - natuerlich "liest" du den inhalt; wieso wuerdest du ihn sonst crawlen wollen.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Re: Backlink crawler

Verfasst: 03.03.2013, 12:24
von maniac
nerd hat geschrieben: Unsinn - natuerlich "liest" du den inhalt; wieso wuerdest du ihn sonst crawlen wollen.
Wenn ein Betreiber nicht möchte, dass man seine Inhalte nicht liest, sollte er am besten lokal hosten ;)

Ja, ist alles Ansichtssache.
Aber ich danke Euch beiden für Eure schnelle Hilfe!

Verfasst: 03.03.2013, 12:26
von Melegrian
Ja, einlesen tust Du den Inhalt schon, anders geht es ja nicht. Doch wenn Du nur einmal im Monat eine URL/Seite mit einem Backlink aufrufst, fällt das ja nicht weiter zur Last.

Verfasst: 03.03.2013, 12:34
von maniac
Bei einem anderen Webseiten Projekt habe ich so eine Funktion nicht eingebaut.
Nun verweisen einige Backlinks auf "Server nicht gefunden" oder die Domains werden umgeleitet auf andere Seiten.

Nun habe ich auch ein Feld mit den Kontakt Daten eingebaut, wenn mal was sein sollte und den Check eben.

Bei normalen Links "interessante Links für meine Besucher" checke ich bei Bedarf auf die Erreichbarkeit der Domain.

Da bekomme ich selbst die Krise, wenn ich auf eine Seite gehe und mir die tollen Links anschaue und ein paar ins Nirwana führen.

Verfasst: 03.03.2013, 13:07
von Melegrian
maniac hat geschrieben:Bei normalen Links "interessante Links für meine Besucher" checke ich bei Bedarf auf die Erreichbarkeit der Domain.
Dazu sollte es reichen, statt GET oder POST eventuell Head als Request-Methode zu benutzen, um nur den Header mit Statuscodes abzurufen.

Verfasst: 03.03.2013, 13:20
von maniac
ich mach das mit curl,
$status = curl_getinfo($ch, CURLINFO_HTTP_CODE);

geht wunderbar.

Verfasst: 03.03.2013, 13:34
von Melegrian
maniac hat geschrieben:ich mach das mit curl,
Ja, damit geht es.

Hatte mal etwas anderes probiert und ein Demo-Script gefertigt, wenn Du da statt GET einfach HEAD einfügst, antwortet der Server auch nur mit einem Header.

Code: Alles auswählen

$request  = "HEAD ".$this->seite." HTTP/1.1\r\n";
Da habe ich jetzt beim User Agent keine Seite angegeben, weil ich nicht weiß, wer da mal mit rumspielen könnte.