Seite 1 von 1

"Parser"oder ähnliches Programm ...

Verfasst: 15.08.2007, 08:23
von avalon
Hallo!
Ich habe folgendes Problem: Ich betreibe eine "historisch" gewachsene Webseite, die ca. 1000 Einzelartikel umfasst. In einem Megajob habe ich es vor ca. 2 Jahren geschafft, auf externe Stylesheets umzusteigen, der Code der Seiten ist allerdings noch immer nicht sauber und recht konservativ mit Tabellen etc. aufgebaut.

Jetzt plane ich die Übernahme in ein zeitgemäßes Format und bräuchte ein Programm, das mir den nackten Seitentext sauber aus allen Seiten extrahiert und unformatiert (als txt o.ä.) und als einzelne Dateien wieder ablegt.

Kennt jemand von Euch einen sauberen Parser, der so etwas kann?

Vielen Dank schon vorab!

Herzliche Grüße,
Michael

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 15.08.2007, 09:38
von maggl
servus,

zwar maximal falsches Forum für die Frage ;)

Aber trotzdem, da ich mich vor kurzem damit beschäftigt habe.

Das Parsen an sich ist absolut kein Problem, eher wie man den Anfang und das Ende definiert.

Am einfachsten ist, Du setzt eindeutige Kommentare in dem Quelltext ein - ich hoffe mal Du nutzt irgendwas dynamisches, ansonsten viel Spass beim manuellen einsetzen ;)

Code: Alles auswählen

    $siteurl = "http://www.deine-seite.de";
	$inhalt = file_get_contents($siteurl);
	$startstring = "<!-- anfang-->";
	$endstring = "<!-- ende -->";
	
	$vara = strstr&#40;$inhalt, $startstring&#41;;
	$varb = str_replace&#40;$startstring,"", $vara&#41;;
	$vare = strstr&#40;$inhalt, $endstring&#41;;
	$result .= str_replace&#40;$vare,"",$varb&#41;;
	
	echo strip_tags&#40;$result&#41;;
Wie man das Ergebnis dann in Dateien ablegt, rtfm of PHP :D

greetz