Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Hmtl extrahieren als Text - Klassifikation

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
noizede
PostRank 1
PostRank 1
Beiträge: 1
Registriert: 15.11.2004, 20:37

Beitrag von noizede » 15.11.2004, 20:44

Hallo!

Da ich gerade an einer Uni-Arbeit zum Thema Klassifikation von Webdokumenten arbeite, bräuchte ich eure Hilfe!

Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann - und dann eine Liste mit Termini Zählung erstellt.

Kenn wer so ein (freeware)Tool? Bin für jede Hilfe dankbar ...

Grüße Noizede

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Southmedia
PostRank 10
PostRank 10
Beiträge: 7322
Registriert: 20.07.2003, 19:56

Beitrag von Southmedia » 15.11.2004, 21:30

Leider kenne ich kein Tool, aber ein Ansatz wäre folgendes:
https://de.php.net/strip_tags

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 16.11.2004, 06:03

noizede hat geschrieben:Ich suche ein Tool mit dem ich automatisch alle HMTL-Tags aus einem gefundenen (gecrawlten) Dokument entfernen kann
Das geht problemlos in Perl - mit einem regulären Ausdruck ist das keine grosse Kunst:

Code: Alles auswählen

  open &#40;IN, "< $infile"&#41; or die "Fehler&#58; $!\n";
  @html = <IN>;
  close &#40;IN&#41;;
  $html = join &#40;"", @html&#41;;
  $html =~ s/<&#91;^>&#93;+>/ /g;
noizede hat geschrieben: - und dann eine Liste mit Termini Zählung erstellt.
Eine Liste mit was?

cu, Robo :)