Seite 1 von 1

Java Script Scrapen

Verfasst: 11.06.2013, 12:14
von Guy-Incognito
Hallo,

Ich möchte eine Reihe von Webseiten testen ob sie einen bestimmten Java Script Code enthalten. Dafür bräuchte ich ein Scraping Tool das Java Script erkennt. Hat irgendjemand einen guten Tipp?

Verfasst:
von

Verfasst: 11.06.2013, 13:19
von LAEB
cURL !

-> speichert dir den content einer seite in eine php variable
-> dann mit strpos oder explode oder preg schauen ob das was du suchst in dem "gecurlten" string enthalten ist.

Da javascript code ja oft auch im head-breich als .js file includiert wird müsstest du zusätzlich die includierten js files curlen (falls der text den du suchst nicht auf der hauptseite enthalten ist) und auf den entsprechend selben string prüfen.

Verfasst: 11.06.2013, 14:33
von Guy-Incognito
vielen Dank! Versuche das zur Zeit auf meinen Mac OSX runterzuladen jedoch werde ich aus der cURL Firmenseite nicht schlauer, da kann man wohl nur Code Packages runterladen und die deutschen Downloadseiten sind entweder fehlerhaft oder haben nur WIN Versionen davon. Vielleicht da noch einen Ratschlag oder Download URL?

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 11.06.2013, 15:04
von LAEB
Firmenseite? Windowsversion? lol :lol:

cURL ist ein Serverseitiges feature und eigentlich standardmäßig aktiviert. auf fast jedem webserver.

erstell dir einfach mal eine php datei mit folgendem code:

Code: Alles auswählen

<?php 
 $url = "http&#58;//www.meineseite.de";
 $ch = curl_init&#40; $url &#41;;
 ob_start&#40;&#41;;
 curl_exec&#40; $ch &#41;;
 curl_close&#40; $ch &#41;;
 $str = ob_get_contents&#40;&#41;;
 ob_end_clean&#40;&#41;;
 echo $str;
?>

Verfasst: 11.06.2013, 15:46
von Guy-Incognito
und dann trag ich da wo meinewebseite steht die url ein die gescraped werden soll?

Verfasst: 11.06.2013, 15:52
von LAEB
richtüüüg.
das ist ja nur der urschleim. bei curl gibt es eine reihe zusätzlicher features mit denen du noch viel mehr machen kannst (POST Requests, Cookies usw.) Aber als Ausgangspunkt sollte das schonmal ganz gut taugen. Wenn du zu curl recherchierst dann am besten auf php.net :wink:

Verfasst: 11.06.2013, 16:06
von Guy-Incognito
hab grad über Mac den Texteditor angeschmissen und das dort reingehauen. Wie wandelt man das in PHP um? :roll:

Verfasst: 11.06.2013, 16:16
von LAEB
Einfach mal ein wenig zu PHP belesen.
Für weitere Erläuterungen zu PHP ist dieses Forum wohl der falsche Ort. :wink:

Verfasst: 11.06.2013, 16:20
von Guy-Incognito
naaajuuut, trotzdem danke!!

Verfasst: 11.06.2013, 16:26
von hanneswobus
mh ich wuerde das ganze recht entspannt via delphi loesen. einfach ueber eine schleife die urls in eine idhttp uebergeben, den quellcode in einen string einlesen und bei vorhandensein des gesuchten codes einen zaehler erhoehen usw.

Verfasst: 11.06.2013, 17:39
von derjanni
Aua. Dieser Thread tut weh.... Du kannst doch nicht "JavaScript im Head" in einem SEO-Forum schreiben! P.S.: Wann geht cURL an die Börse? :crazyeyes:

Was für einen JavaScript code suchst Du denn?

Verfasst: 11.06.2013, 18:47
von Melegrian
derjanni hat geschrieben:Aua. Dieser Thread tut weh....
Mehr noch, damit gibst Du doch den fremden JS-Code ungefiltert auf der eigenen Seite aus.
LAEB hat geschrieben:

Code: Alles auswählen

<?php 
...
 echo $str;
?>
Absolut das Mindeste in einem Beispiel für Anfänger wäre wohl:

Code: Alles auswählen

 echo "<pre>".htmlspecialchars&#40;$str, ENT_QUOTES&#41;."</pre>\n";

Verfasst: 11.06.2013, 18:57
von LAEB
Das echo war exemplarisch. :roll:
Er will den string ja verarbeiten und nicht ausgeben.

Verfasst: 11.06.2013, 19:38
von Melegrian
Ja, aber doch nicht für einen Anfänger, der noch nicht weiß, was er anrichten kann. Habe da in einem anderen Forum gerade eine Diskussion durch, ging unter anderem darum, dass jemand vor einem halben Jahr einstieg, seither etliche Tutorials durchgearbeitet hatte und immer noch nicht wusste, wie er eine Ausgabe absichern kann, weil das wohl mehrheitlich in einfachen Beispielen fehlte.

Verfasst: 12.06.2013, 16:59
von Guy-Incognito
hat sich alles schon erledigt, hab mir was über Google Docs Formeln zusammengebastelt und es läuft.

Mittels Xpath und der Formel importxml kann ich in einem Docs Dokument maximal 50 Webseiten Scrapen und mein Snippet welches ich Suche dadurch finden...läääuft