Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Hmtl extrahieren als Text - Klassifikation

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
noizede
PostRank 1
PostRank 1
Beiträge: 1
Registriert: 15.11.2004, 20:37

Beitrag von noizede » 15.11.2004, 20:44

Hallo!

Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!

Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.

Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...

Grüße Noizede

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Southmedia
PostRank 10
PostRank 10
Beiträge: 7322
Registriert: 20.07.2003, 19:56

Beitrag von Southmedia » 15.11.2004, 21:30

Leider kenne ich kein Tool, aber ein Ansatz wäre folgendes:
https://de.php.net/strip_tags

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 16.11.2004, 06:03

noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann
Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:

Code: Alles auswählen

  open &#40;IN, "< $infile"&#41; or die "Fehler&#58; $!\n";
  @html = <IN>;
  close &#40;IN&#41;;
  $html = join &#40;"", @html&#41;;
  $html =~ s/<&#91;^>&#93;+>/ /g;
noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.
Eine Liste mit was?

cu, Robo :)

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


innuendo
PostRank 8
PostRank 8
Beiträge: 776
Registriert: 13.06.2003, 14:18
Wohnort: Linz/OÖ

Beitrag von innuendo » 16.11.2004, 06:53

mit Termini meinst du wohl, was es alles für HTML-Tags gibt. So würde ich dieses hochschul-Deutsch übersetzen ;-)

Da nimmst du am besten die W3C Spezifikation her, oder noch besser, die Auflistung von Selfhtml, denn da findest du auch ein paar MS-spezifisiche Sachen (bzw. auch vom alten Netscape).

lg,
Innuendo

dexter
PostRank 4
PostRank 4
Beiträge: 108
Registriert: 11.11.2004, 15:53
Wohnort: ennepetal

Beitrag von dexter » 16.11.2004, 12:04

hi noizede,

es gibt u.a. zwei browser für text-terminals, die als ausgangspunkt für die tag-entfernung dienen können. probier mal:

Code: Alles auswählen

lynx -force_html -dump -hiddenlinks=ignore -nolist <htmldatei>
und:

Code: Alles auswählen

w3m -dump <htmldatei>
lynx ist evtl. besser geeignet, da das layout dabei einfacher bleibt (w3m versucht, tables "richtig" zu layouten).

für die zählung der im text vorkommenden begriffe/phrasen fällt mir ad hoc kein tool ein -- ich meine aber, in den gnu packages mal was zu dem thema gelesen zu haben. evtl. in die richtung hash/index-erstellung o.ä..

michael

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag