Seite 1 von 3
Webkatalogliste als txt
Verfasst: 17.07.2007, 18:58
von Rdata
Hi Forum,
Gibts ne Möglichkeit zum einen aus einer Webseite schnelle alle linkurl herauszukopieren um so eine url liste aller möglichen Webkataloge zu extrahieren?
Oder gibts so ne liste schon? (txt,csv,xls)
Grüße Rdata
Verfasst: 17.07.2007, 23:23
von semtex
Sollte kein Problem sein, ein kleiner fünfzeiler in PHP und das Ding ist gegessen !
Mit "file_get_contents" holst Du Dir den Content rein und mit "preg_match" extrahierst Du die Urls.
Code: Alles auswählen
$content = file_get_contents("http://www.domain.de");
preg_match_all("!<a.*?href=\"([^\"]*)\"[^>]*>(.*?)</a>!",$content,$gogo);
foreach ($gogo[2] as $domain)
{
echo $domain.'<br>';
}
Das kann man natürlich noch weiter ausbauen, zb. mit einem Formular und das Dir die Urls in eine Datei geschrieben werden.
Wenn man ganz Pfiffig ist, kann man sich einen kleinen Spider bauen der die Links weiterverfolgt und sich dort weiter durch alle Seiten crawlt.
Verfasst: 18.07.2007, 01:25
von Advertiseman
Ich habe vor längerem einmal etwas programmiert um aus Google (per Api) Webkatalog zu lesen und in einer Liste zu speichern. Ist allerdings ein etwas komplexeres Script.
Auf Anfrage lasse ich gerne eine Liste über einige hundert Webkataloge erstellen (kostenlos).
Nur erstelle ich keine große Liste wegen einer Person.
Verfasst: 18.07.2007, 01:32
von suchus
Naja wenn Du eh so nett bist und das kostenlos machen willst ist es doch egal ob es einer oder tausend nehmen

Verfasst: 18.07.2007, 01:54
von Advertiseman
Sind ja nur ein paar Klicks, die ich in mein Programm eingeben muss.
Ich stelle einfach mal die Liste bis heute Abend zusammen und veröffentliche sie dann hier.
Verfasst: 18.07.2007, 07:07
von Rdata
Super das ist klasse! Dann bis heute abend!
Re: Webkatalogliste als txt
Verfasst: 18.07.2007, 07:45
von propaganda
Rdata hat geschrieben:
Gibts ne Möglichkeit zum einen aus einer Webseite schnelle alle linkurl herauszukopieren
Ja, mit
meiner Firefox Erweiterung.
Verfasst: 18.07.2007, 09:16
von MW
@ Advertiseman:
ich wäre auch interessiert an der Liste. Danke für deine Mühen vorab!
Verfasst: 18.07.2007, 12:53
von muskelbody
ich haette auch gern eine

Verfasst: 18.07.2007, 13:04
von semtex
Das grenzt ja schon langsam an Contengrabbing
Ich glaube kaum, das die Besitzer der Linklisten von Ihrem Glück wissen das ihre Seiten gescannt und die Weblinks aufbereitet wurden.
Verfasst: 18.07.2007, 13:12
von firewire
deutsche oder englische Webkataloge?
Verfasst: 18.07.2007, 14:14
von Rdata
Das grenzt ja schon langsam an Contengrabbing
Ich glaube kaum, das die Besitzer der Linklisten von Ihrem Glück wissen das ihre Seiten gescannt und die Weblinks aufbereitet wurden.
Wie soll ich das verstehen? Diese Liste benötige ich als eintragungs hilfe... finde es praktische mal so eine zu haben.
@firewire
Ich kann Sie gut in beiden Sprachen benötigen.
Verfasst: 18.07.2007, 14:52
von semtex
Rdata hat geschrieben:Das grenzt ja schon langsam an Contengrabbing
Ich glaube kaum, das die Besitzer der Linklisten von Ihrem Glück wissen das ihre Seiten gescannt und die Weblinks aufbereitet wurden.
Wie soll ich das verstehen? Diese Liste benötige ich als eintragungs hilfe... finde es praktische mal so eine zu haben.
@firewire
Ich kann Sie gut in beiden Sprachen benötigen.
Dich meine ich im Grunde nicht !
Ich finde es bloss immer etwas merkwürdig, wenn Leute hier gross aufschreien wenn nur mal ein unbekannter Bot ihre Seite besucht, es aber für normal finden mit extra dafür entwickelten Scripten von fremden Seiten Content für Ihre Zwecke zu extrahieren.
Verfasst: 18.07.2007, 16:22
von Rdata
Stimmt schon! Aber dies nützt ja jedem der seine seite in webkataloge einträt oder?
Also dann warten wir mal bis die ganze liste hier gepostet wird!
Verfasst: 18.07.2007, 16:42
von semtex
Jede Medaille hat aber zwei Seiten
Regt euch dann bitte aber auch nicht auf, wenn mal jemand auf eure Seite kommt und euren Content für seine Zwecke missbraucht, eventuell alle Kunden eurer Referenzliste mit seiner Werbung anschreibt.
Ich bin auch nicht gerade ein Kind von Traurigkeit und ich will natürlich auch niemanden unterstellen das er mit den Listen was böses anfangen möchte, nur es muss hier nicht noch ein offizieller Tauschhandel damit erblühen.
Trotzdem möchte ich die Liste natürlich auch gerne haben
