Hmtl extrahieren als Text - Klassifikation
Verfasst: 15.11.2004, 20:44
Hallo!
Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!
Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.
Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...
Grüße Noizede
Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!
Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.
Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...
Grüße Noizede