Seite 1 von 1

Suche Parser um Inhalt einer Seite festzustellen

Verfasst: 25.01.2008, 18:44
von Luigi
Hallo!
Ich suche einen Parser für eine Suchmaschine, der den Inhalt einer Webseite feststellt und in eine Datenbank packt.

Ein System, vergleichbar mit Google, das mir sagt, dass auf der Webseite xy ein Text zum Thema Handy, Klingeltöne etc. steht.

Gibt es sowas als Script oder so?

Gruß
Lugii

Verfasst:
von

Re: Suche Parser um Inhalt einer Seite festzustellen

Verfasst: 25.01.2008, 19:11
von Kristian
Hallo
Luigi hat geschrieben:Hallo!
Ich suche einen Parser für eine Suchmaschine, der den Inhalt einer Webseite feststellt und in eine Datenbank packt.

Ein System, vergleichbar mit Google, das mir sagt, dass auf der Webseite xy ein Text zum Thema Handy, Klingeltöne etc. steht.

Gibt es sowas als Script oder so?

Gruß
Lugii
Aber ja, da gibt es reichlich Scripte und Ansätze.
Solange es sich um eine Webseite handelt, wie du sagst, kann man jedes davon uneingeschränkt empfehlen.
Falls es mal mehr als eine Seite wird solltest du mal hinterfragen, wie es mit der Rechenleistung bei G. aussieht.

Gruss
Kristian

Verfasst: 25.01.2008, 20:41
von Luigi
Es wäre größenwahnsinnig sich mit Google zu messen.
Ich möchte lediglich ein paar hundert einzelseiten crawlen.

Welches Script ist denn vielversprechend?

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 25.01.2008, 20:51
von 800XE

Code: Alles auswählen



function text_cut($text, $from, $to,$replace='')
{
  $cut='';
  $pos1  = strpos($text,$from);
  if ( $pos1 )
  {
    $pos2  = strpos($text,$to,$pos1);
    if ( $replace )
      return(substr($text,0,$pos1).$replace.substr($text,$pos2+1));
    if ( $pos2 )
      $cut = substr($text,$pos1,$pos2-$pos1+1);
  }
  return($cut);
}
function text_cutcontent($text, $from, $to)
{
  $cut='';
  $pos1  = strpos($text,$from);
  if ( $pos1 )
  {
    $pos2  = strpos($text,$to,$pos1);
    $pos1 += strlen($from);
    if ( $pos2 )
      $cut = substr($text,$pos1,$pos2-$pos1);
  }
  return($cut);
}
function text_replace($text, $cut, $replace)
{
  return(str_replace($cut,$replace,$text));
}

$buffer = file_get_contents( $http );
$body = text_cutcontent&#40; $buffer, '<bod', '</bod'&#41;;
$contentBodyStart=strpos&#40;$body,'>'&#41;;
$content = substr&#40; $body, $contentBodyStart+1&#41;;



Verfasst: 25.01.2008, 21:02
von bennos
Hallo

Es gibt im OpenSource Bereich einige interessante Projekte die das können.

Lucene
Nutch
mnoGoSearch

und noch viele mehr

gruss
bennos

Verfasst: 25.01.2008, 22:30
von uwew
Ganz einfach gehts auch mit wget -r , allerdings ohne Datenbank.

Verfasst: 26.01.2008, 08:25
von ff-webdesigner
ich hab da auchmal ein skript gebastelt, das die google serps durchgeht und dann von den einzelnen seiten inhalte saugt - selbstverständlich nur zu demozwecken :-) bei interesse:pn

Verfasst: 26.01.2008, 08:31
von Luigi
Ich will nichts runterladen oder saugen, ich möchte die zu durchsuchenden Webseiten lediglich inhaltlich klassifizieren.

Ich dachte eher an sowas wie https://developer.yahoo.com/search/cont ... ction.html

LEider funzt das Teil nicht so gut in Germany und vergleichbares scheint es nicht zu geben.

Luigi