Seite 1 von 1
Suche Parser um Inhalt einer Seite festzustellen
Verfasst: 25.01.2008, 18:44
von Luigi
Hallo!
Ich suche einen Parser für eine Suchmaschine, der den Inhalt einer Webseite feststellt und in eine Datenbank packt.
Ein System, vergleichbar mit Google, das mir sagt, dass auf der Webseite xy ein Text zum Thema Handy, Klingeltöne etc. steht.
Gibt es sowas als Script oder so?
Gruß
Lugii
Re: Suche Parser um Inhalt einer Seite festzustellen
Verfasst: 25.01.2008, 19:11
von Kristian
Hallo
Luigi hat geschrieben:Hallo!
Ich suche einen Parser für eine Suchmaschine, der den Inhalt einer Webseite feststellt und in eine Datenbank packt.
Ein System, vergleichbar mit Google, das mir sagt, dass auf der Webseite xy ein Text zum Thema Handy, Klingeltöne etc. steht.
Gibt es sowas als Script oder so?
Gruß
Lugii
Aber ja, da gibt es reichlich Scripte und Ansätze.
Solange es sich um eine Webseite handelt, wie du sagst, kann man jedes davon uneingeschränkt empfehlen.
Falls es mal mehr als eine Seite wird solltest du mal hinterfragen, wie es mit der Rechenleistung bei G. aussieht.
Gruss
Kristian
Verfasst: 25.01.2008, 20:41
von Luigi
Es wäre größenwahnsinnig sich mit Google zu messen.
Ich möchte lediglich ein paar hundert einzelseiten crawlen.
Welches Script ist denn vielversprechend?
Verfasst: 25.01.2008, 20:51
von 800XE
Code: Alles auswählen
function text_cut($text, $from, $to,$replace='')
{
$cut='';
$pos1 = strpos($text,$from);
if ( $pos1 )
{
$pos2 = strpos($text,$to,$pos1);
if ( $replace )
return(substr($text,0,$pos1).$replace.substr($text,$pos2+1));
if ( $pos2 )
$cut = substr($text,$pos1,$pos2-$pos1+1);
}
return($cut);
}
function text_cutcontent($text, $from, $to)
{
$cut='';
$pos1 = strpos($text,$from);
if ( $pos1 )
{
$pos2 = strpos($text,$to,$pos1);
$pos1 += strlen($from);
if ( $pos2 )
$cut = substr($text,$pos1,$pos2-$pos1);
}
return($cut);
}
function text_replace($text, $cut, $replace)
{
return(str_replace($cut,$replace,$text));
}
$buffer = file_get_contents( $http );
$body = text_cutcontent( $buffer, '<bod', '</bod');
$contentBodyStart=strpos($body,'>');
$content = substr( $body, $contentBodyStart+1);
Verfasst: 25.01.2008, 21:02
von bennos
Hallo
Es gibt im OpenSource Bereich einige interessante Projekte die das können.
Lucene
Nutch
mnoGoSearch
und noch viele mehr
gruss
bennos
Verfasst: 25.01.2008, 22:30
von uwew
Ganz einfach gehts auch mit wget -r , allerdings ohne Datenbank.
Verfasst: 26.01.2008, 08:25
von ff-webdesigner
ich hab da auchmal ein skript gebastelt, das die google serps durchgeht und dann von den einzelnen seiten inhalte saugt - selbstverständlich nur zu demozwecken

bei interesse:pn
Verfasst: 26.01.2008, 08:31
von Luigi
Ich will nichts runterladen oder saugen, ich möchte die zu durchsuchenden Webseiten lediglich inhaltlich klassifizieren.
Ich dachte eher an sowas wie
https://developer.yahoo.com/search/cont ... ction.html
LEider funzt das Teil nicht so gut in Germany und vergleichbares scheint es nicht zu geben.
Luigi