Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann
Code: Alles auswählen
open (IN, "< $infile") or die "Fehler: $!\n";
@html = <IN>;
close (IN);
$html = join ("", @html);
$html =~ s/<[^>]+>/ /g;
Eine Liste mit was?noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.
Code: Alles auswählen
lynx -force_html -dump -hiddenlinks=ignore -nolist <htmldatei>
Code: Alles auswählen
w3m -dump <htmldatei>