Hmtl extrahieren als Text - Klassifikation

Beitrag von **noizede** » 15.11.2004, 20:44

Hallo!

Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!

Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.

Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...

Grüße Noizede

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Southmedia** » 15.11.2004, 21:30

Leider kenne ich kein Tool, aber ein Ansatz wäre folgendes:
https://de.php.net/strip_tags

Beitrag von **robo** » 16.11.2004, 06:03

noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann

Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:

Code: Alles auswählen

  open &#40;IN, "< $infile"&#41; or die "Fehler&#58; $!\n";
  @html = <IN>;
  close &#40;IN&#41;;
  $html = join &#40;"", @html&#41;;
  $html =~ s/<&#91;^>&#93;+>/ /g;

noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.

Eine Liste mit was?

cu, Robo

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **innuendo** » 16.11.2004, 06:53

mit Termini meinst du wohl, was es alles für HTML-Tags gibt. So würde ich dieses hochschul-Deutsch übersetzen

Da nimmst du am besten die W3C Spezifikation her, oder noch besser, die Auflistung von Selfhtml, denn da findest du auch ein paar MS-spezifisiche Sachen (bzw. auch vom alten Netscape).

lg,
Innuendo

Beitrag von **dexter** » 16.11.2004, 12:04

hi noizede,

es gibt u.a. zwei browser für text-terminals, die als ausgangspunkt für die tag-entfernung dienen können. probier mal:

Code: Alles auswählen

lynx -force_html -dump -hiddenlinks=ignore -nolist <htmldatei>

und:

Code: Alles auswählen

w3m -dump <htmldatei>

lynx ist evtl. besser geeignet, da das layout dabei einfacher bleibt (w3m versucht, tables "richtig" zu layouten).

für die zählung der im text vorkommenden begriffe/phrasen fällt mir ad hoc kein tool ein -- ich meine aber, in den gnu packages mal was zu dem thema gelesen zu haben. evtl. in die richtung hash/index-erstellung o.ä..

michael