Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Backlink crawler

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
maniac
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 17.02.2013, 17:51

Beitrag von maniac » 03.03.2013, 11:24

Hallo,

um Backlinks zu testen, ob sie noch gesetzt sind, habe ich einen crawler geschrieben.

Grob gesagt, wenn mein Link gesetzt ist, gib "ok" aus.

Ich habe die Möglichkeit einen useragent und einen referer mit zusenden.
Es ist nicht nett, einem anderen Webseitenbetreiber vor zu machen, mein crawler sei ein User.

Google macht es uns ja im useragent folgendermaßen vor:
Mozilla/5.0 (compatible;
Googlebot/2.1;
+https://www.google.com/bot.html)

referer ist logischerweise leer.

So könnte ich ja folgendes eintragen:
Mozilla/5.0 (compatible;
Backlink crawler/1.0;
+https://www.meineseite.de)

und referer leer lassen.

Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 03.03.2013, 12:02

maniac hat geschrieben:So könnte ich ja folgendes eintragen:
Mozilla/5.0 (compatible;
Backlink crawler/1.0;
+https://www.meineseite.de)
Würde da noch eine Seite mit einer kurzen Beschreibung hinzufügen. Mache ich zumindest so, wenn ich ein Script vorstelle.

Code: Alles auswählen

Mozilla/5.0 (compatible; Backlink crawler/1.0; +http://www.meineseite.de/beschreibung.html)
maniac hat geschrieben:Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.
Du crawlest doch nicht die ganzen Seiten, du rufst doch sicherlich nur gelegentlich die Seiten auf, die einen Backlink zu Deinen Seiten enthalten oder wie? Ich wüsste nicht, was dagegen sprechen sollte. Außerdem, soweit ich weiß, gibt es beim Scrapen und Crawlen kaum Einschränkungen, so lange keine Rechte verletzt werden.

nerd
PostRank 10
PostRank 10
Beiträge: 4023
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 03.03.2013, 12:12

maniac hat geschrieben: Ist es eigentlich rechtlich bedenklich andere Seiten zu crawlen?
Ich lesen und verwende den Inhalt nicht, sondern werte ihn ja nur aus.
Unsinn - natuerlich "liest" du den inhalt; wieso wuerdest du ihn sonst crawlen wollen.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


maniac
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 17.02.2013, 17:51

Beitrag von maniac » 03.03.2013, 12:24

nerd hat geschrieben: Unsinn - natuerlich "liest" du den inhalt; wieso wuerdest du ihn sonst crawlen wollen.
Wenn ein Betreiber nicht möchte, dass man seine Inhalte nicht liest, sollte er am besten lokal hosten ;)

Ja, ist alles Ansichtssache.
Aber ich danke Euch beiden für Eure schnelle Hilfe!

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 03.03.2013, 12:26

Ja, einlesen tust Du den Inhalt schon, anders geht es ja nicht. Doch wenn Du nur einmal im Monat eine URL/Seite mit einem Backlink aufrufst, fällt das ja nicht weiter zur Last.
Scripts und Plugins für Cookie-Hinweise

maniac
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 17.02.2013, 17:51

Beitrag von maniac » 03.03.2013, 12:34

Bei einem anderen Webseiten Projekt habe ich so eine Funktion nicht eingebaut.
Nun verweisen einige Backlinks auf "Server nicht gefunden" oder die Domains werden umgeleitet auf andere Seiten.

Nun habe ich auch ein Feld mit den Kontakt Daten eingebaut, wenn mal was sein sollte und den Check eben.

Bei normalen Links "interessante Links für meine Besucher" checke ich bei Bedarf auf die Erreichbarkeit der Domain.

Da bekomme ich selbst die Krise, wenn ich auf eine Seite gehe und mir die tollen Links anschaue und ein paar ins Nirwana führen.

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 03.03.2013, 13:07

maniac hat geschrieben:Bei normalen Links "interessante Links für meine Besucher" checke ich bei Bedarf auf die Erreichbarkeit der Domain.
Dazu sollte es reichen, statt GET oder POST eventuell Head als Request-Methode zu benutzen, um nur den Header mit Statuscodes abzurufen.

maniac
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 17.02.2013, 17:51

Beitrag von maniac » 03.03.2013, 13:20

ich mach das mit curl,
$status = curl_getinfo($ch, CURLINFO_HTTP_CODE);

geht wunderbar.

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 03.03.2013, 13:34

maniac hat geschrieben:ich mach das mit curl,
Ja, damit geht es.

Hatte mal etwas anderes probiert und ein Demo-Script gefertigt, wenn Du da statt GET einfach HEAD einfügst, antwortet der Server auch nur mit einem Header.

Code: Alles auswählen

$request  = "HEAD ".$this->seite." HTTP/1.1\r\n";
Da habe ich jetzt beim User Agent keine Seite angegeben, weil ich nicht weiß, wer da mal mit rumspielen könnte.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag