Seite 1 von 1

Hmtl extrahieren als Text - Klassifikation

Verfasst: 15.11.2004, 20:44
von noizede
Hallo!

Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!

Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.

Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...

Grüße Noizede

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 15.11.2004, 21:30
von Southmedia
Leider kenne ich kein Tool, aber ein Ansatz wäre folgendes:
https://de.php.net/strip_tags

Re: Hmtl extrahieren als Text - Klassifikation

Verfasst: 16.11.2004, 06:03
von robo
noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann
Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:

Code: Alles auswählen

  open &#40;IN, "< $infile"&#41; or die "Fehler&#58; $!\n";
  @html = <IN>;
  close &#40;IN&#41;;
  $html = join &#40;"", @html&#41;;
  $html =~ s/<&#91;^>&#93;+>/ /g;
noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.
Eine Liste mit was?

cu, Robo :)

Verfasst:
von

Verfasst: 16.11.2004, 06:53
von innuendo
mit Termini meinst du wohl, was es alles für HTML-Tags gibt. So würde ich dieses hochschul-Deutsch übersetzen ;-)

Da nimmst du am besten die W3C Spezifikation her, oder noch besser, die Auflistung von Selfhtml, denn da findest du auch ein paar MS-spezifisiche Sachen (bzw. auch vom alten Netscape).

lg,
Innuendo

Re: Hmtl extrahieren als Text - Klassifikation

Verfasst: 16.11.2004, 12:04
von dexter
hi noizede,

es gibt u.a. zwei browser für text-terminals, die als ausgangspunkt für die tag-entfernung dienen können. probier mal:

Code: Alles auswählen

lynx -force_html -dump -hiddenlinks=ignore -nolist <htmldatei>
und:

Code: Alles auswählen

w3m -dump <htmldatei>
lynx ist evtl. besser geeignet, da das layout dabei einfacher bleibt (w3m versucht, tables "richtig" zu layouten).

für die zählung der im text vorkommenden begriffe/phrasen fällt mir ad hoc kein tool ein -- ich meine aber, in den gnu packages mal was zu dem thema gelesen zu haben. evtl. in die richtung hash/index-erstellung o.ä..

michael