Seite 1 von 1
Hmtl extrahieren als Text - Klassifikation
Verfasst: 15.11.2004, 20:44
von noizede
Hallo!
Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!
Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.
Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...
Grüße Noizede
Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Verfasst: 15.11.2004, 21:30
von Southmedia
Leider kenne ich kein Tool, aber ein Ansatz wäre folgendes:
https://de.php.net/strip_tags
Re: Hmtl extrahieren als Text - Klassifikation
Verfasst: 16.11.2004, 06:03
von robo
noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann
Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:
Code: Alles auswählen
open (IN, "< $infile") or die "Fehler: $!\n";
@html = <IN>;
close (IN);
$html = join ("", @html);
$html =~ s/<[^>]+>/ /g;
noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.
Eine Liste mit
was?
cu, Robo

Verfasst: 16.11.2004, 06:53
von innuendo
mit Termini meinst du wohl, was es alles für HTML-Tags gibt. So würde ich dieses hochschul-Deutsch übersetzen
Da nimmst du am besten die W3C Spezifikation her, oder noch besser, die Auflistung von Selfhtml, denn da findest du auch ein paar MS-spezifisiche Sachen (bzw. auch vom alten Netscape).
lg,
Innuendo
Re: Hmtl extrahieren als Text - Klassifikation
Verfasst: 16.11.2004, 12:04
von dexter
hi noizede,
es gibt u.a. zwei browser für text-terminals, die als ausgangspunkt für die tag-entfernung dienen können. probier mal:
Code: Alles auswählen
lynx -force_html -dump -hiddenlinks=ignore -nolist <htmldatei>
und:
lynx ist evtl. besser geeignet, da das layout dabei einfacher bleibt (w3m versucht, tables "richtig" zu layouten).
für die zählung der im text vorkommenden begriffe/phrasen fällt mir ad hoc kein tool ein -- ich meine aber, in den gnu packages mal was zu dem thema gelesen zu haben. evtl. in die richtung hash/index-erstellung o.ä..
michael