ABAKUS

Verfasst: **15.11.2004, 20:44**

Hallo!

Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!

Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.

Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...

Grüße Noizede

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: **15.11.2004, 21:30**

Leider kenne ich kein Tool, aber ein Ansatz wäre folgendes:
https://de.php.net/strip_tags

Verfasst: **16.11.2004, 06:03**

noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann

Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:

Code: Alles auswählen

  open &#40;IN, "< $infile"&#41; or die "Fehler&#58; $!\n";
  @html = <IN>;
  close &#40;IN&#41;;
  $html = join &#40;"", @html&#41;;
  $html =~ s/<&#91;^>&#93;+>/ /g;

noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.

Eine Liste mit was?

cu, Robo

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Verfasst: **16.11.2004, 06:53**

mit Termini meinst du wohl, was es alles für HTML-Tags gibt. So würde ich dieses hochschul-Deutsch übersetzen

Da nimmst du am besten die W3C Spezifikation her, oder noch besser, die Auflistung von Selfhtml, denn da findest du auch ein paar MS-spezifisiche Sachen (bzw. auch vom alten Netscape).

lg,
Innuendo

Verfasst: **16.11.2004, 12:04**

hi noizede,

es gibt u.a. zwei browser für text-terminals, die als ausgangspunkt für die tag-entfernung dienen können. probier mal:

Code: Alles auswählen

lynx -force_html -dump -hiddenlinks=ignore -nolist <htmldatei>

und:

Code: Alles auswählen

w3m -dump <htmldatei>

lynx ist evtl. besser geeignet, da das layout dabei einfacher bleibt (w3m versucht, tables "richtig" zu layouten).

für die zählung der im text vorkommenden begriffe/phrasen fällt mir ad hoc kein tool ein -- ich meine aber, in den gnu packages mal was zu dem thema gelesen zu haben. evtl. in die richtung hash/index-erstellung o.ä..

michael

ABAKUS

Hmtl extrahieren als Text - Klassifikation

Hmtl extrahieren als Text - Klassifikation

Re: Hmtl extrahieren als Text - Klassifikation

Re: Hmtl extrahieren als Text - Klassifikation