Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
WP: Excerpt soll Format behalten (get_the_excerpt)! GELÖST!!
.htaccess Verschiedene User für verschiedene Ordner
DOM wird nachtraeglich mit javascript veraendert. Soll heissen du kannst die werte nicht direkt via quellcode auslesen, sondern musst nachsehen wo und wie die werte da erzeugt werden. da nuetzt auch der PHP DOM parser nichts, da er kein javascript ausfuehrt.einmalseomitallesbitte hat geschrieben: enthält Werte, die sich scheinbar nicht so einfach scrapen lassen. Wenn ich z.B. den Wert der SEO Visibility haben möchte, kann ich mir dafür einen xpath Pfad vom Browser anzeigen lassen (z.B. mit firebug). Ich kann das Element unter dieser url und diesem Pfad aber trotzdem nicht ansprechen. Im Quelltext findet man auch nur einen äußeren Div. Den gesamten Inhalt des Divs, wozu die ganzen interessierenden Zahlen gehören, sieht man im Quelltext nicht.
So grundsätzlich ist das nicht, ein einfacher PHP-Scraper, der nur den Quellcode auswertet, wird da schnell an seine Grenzen stoßen und spätestens bei den von nerd erwähnten Gründen versagen. Dass dieser von Dir verlinkte Parser es schaffen soll, habe ich aber zumindest verschiedentlich gelesen, nur noch nicht ausprobiert. Eigentlich geht es ja nur, in dem das Teil in etwa genauso viel kann wie ein Browser.gerd_w hat geschrieben:Grundlegend sollte es sich problemlos über einen php Scraper abrufen lassen.
Ich nutze für solche Sachen immer Simple HTML DOM Parser
Du brauchst nicht verwirrt zu sein. Angenommen eine geöffnete Seite löst einen Ajax-Request aus und das Ergebnis wird zwischen <div id:Ausgabe> und </div> ausgegeben. Dann ändert sich nichts am Quelltext, denn was als Quelltext angezeigt wird, bleibt unverändert als <div id:Ausgabe> und </div> erhalten und mehr findet ein einfaches Tool nicht. Es muss also etwas mehr können und auch das erfassen, was an dieser Stelle im Dokument ausgegeben werden soll, was aber nicht im Quelltext angezeigt wird. Zum Beispiel einen JavaScript-Interpreter, der auch jQuery versteht usw. usf, wobei es noch ein paar weitere JS Bibliotheken und Frameworks gibt, welche die aufgerufenen Seiten mitliefern bzw. referenzieren, damit ein Browser die laden und benutzen kann, bevor eine Seite richtig angezeigt werden kann.einmalseomitallesbitte hat geschrieben:Ok, jetzt bin ich zwar noch verwirrter als vorher.
Code: Alles auswählen
<div class="x-rank-kpi" data-title="KPI_RESEARCH_HOME_RANK.LINKS-RANK.TITLE"><div class="m10"><h3><div class="title">Link Rank</div> <button type="button" class="x-btn-xs contextmenu" onclick="Contextmenu.show(this);" data-entries="{'help':true,'report':true,'export':false,'task':false,'alert':false,'goal':false,'event':false}" data-task="{'element':'kpi','controller':'kpi_research_home_rank','action':'links-rank','scope':'research','section':null,'project_id':null,'task':'new'}" data-key="REPORT_KPI_RESEARCH_HOME_RANK.LINKS-RANK">+</button>
<div data-key="HELP_KPI_RESEARCH_HOME_RANK.LINKS-RANK" class="x-help help"> </div><div data-key="REPORT_KPI_RESEARCH_HOME_RANK.LINKS-RANK" class="x-add help" style="display:none"> </div></h3><span class="report_info"></span><div class="number"><span class="smaller">#</span>2.231</div><div class="x-lang lang-de"></div><div class="clear" /><div class="rank-bar"><div class="progress links" style="width:116px"></div><div class="best" style="width:122px"></div><div class="best-info hover" style="margin-left:94px">best <strong><span class="smaller">#</span>1.952</strong></div><div class="competitors links" style="width:149px"></div><div class="competitor-arrow" style="width:151px"></div><div class="competitor-info hover" style="margin-left:108px">Ø Wettbewerber<br><span class="smaller">#</span>195</div><div class="rank-icon links"></div> </div></div></div>