Seite 1 von 3
Webkatalogliste als txt
Verfasst: 17.07.2007, 18:58
von Rdata
Hi Forum,
Gibts ne Möglichkeit zum einen aus einer Webseite schnelle alle linkurl herauszukopieren um so eine url liste aller möglichen Webkataloge zu extrahieren?
Oder gibts so ne liste schon? (txt,csv,xls)
Grüße Rdata
Verfasst: 17.07.2007, 23:23
von semtex
Sollte kein Problem sein, ein kleiner fünfzeiler in PHP und das Ding ist gegessen !
Mit "file_get_contents" holst Du Dir den Content rein und mit "preg_match" extrahierst Du die Urls.
Code: Alles auswählen
$content = file_get_contents("http://www.domain.de");
preg_match_all("!<a.*?href=\"([^\"]*)\"[^>]*>(.*?)</a>!",$content,$gogo);
foreach ($gogo[2] as $domain)
{
echo $domain.'<br>';
}
Das kann man natürlich noch weiter ausbauen, zb. mit einem Formular und das Dir die Urls in eine Datei geschrieben werden.
Wenn man ganz Pfiffig ist, kann man sich einen kleinen Spider bauen der die Links weiterverfolgt und sich dort weiter durch alle Seiten crawlt.
Verfasst: 18.07.2007, 01:25
von Advertiseman
Ich habe vor längerem einmal etwas programmiert um aus Google (per Api) Webkatalog zu lesen und in einer Liste zu speichern. Ist allerdings ein etwas komplexeres Script.
Auf Anfrage lasse ich gerne eine Liste über einige hundert Webkataloge erstellen (kostenlos).
Nur erstelle ich keine große Liste wegen einer Person.