Seite 1 von 1

Gutes Scraping Tool

Verfasst: 16.01.2013, 12:56
von Guy-Incognito
Hallo,

ich Suche nach einem kostenlosen Tool welches beispielsweise eine URL-Liste durchgeht und diese URLs nach bestimmten Kriterien ausgibt.

Es soll beispielsweise eine Liste von Domains durchgehen und diese herausfiltern welche Blogs besitzen.

Kennt jemand was gutes? Kann ScrapeBox dies zb?

Verfasst:
von

Verfasst: 16.01.2013, 15:45
von Michael
Definiere mal "Blogs besitzen".
Suchst Du nur Wordpress oder auch andere Blog System? Soll der Blog auf der Startseite oder einer Unterseite sein? etc.

Verfasst: 16.01.2013, 16:45
von Guy-Incognito
er soll rausfinden ob sich auf der "domain.de" irgendwo ein Bog befindet im dem er die URL Struktur durchsucht nach /blog/. Mir gehts im Grunde nur um die URL /blog/ die er rausfiltern soll aus einer Liste von rootdomains.

Irgendwie müsste das doch gehen.

Verfasst:
von

Verfasst: 16.01.2013, 16:48
von Chh1
Google.

Verfasst: 16.01.2013, 16:51
von Vegas
Wenn Du eine CMS Erkennung suchst, ließe sich das mit GSA SER umsetzen. Sucht aber nur unter der konkreten URL, dafür ist die Erkennung recht gut und deckt viele Blog, Foren und was weiß ich Systeme ab.

Mit Scrapebox wird das schwierig, wüßte da keinen wirklich sinnvollen Ansatz, außer mal per site: Abfrage die Liste in unermeßliche Aufzublähen und dann auf blöd mit irgendeinem String den Du wiederfindest draufzuballern um zu sehen, wo was hängenbleibt. Empfehlenswert ist das aber sicher nicht.

Verfasst: 16.01.2013, 17:04
von Lyk
hab das tool vor jahren mal genutzt gehabt.
eventuell ist das ja das, was gesucht wird.

https://www.fastblogfinder.com/

Verfasst: 16.01.2013, 17:09
von Guy-Incognito
Chh1 hat geschrieben:Google.
Quark, ich will Zeit sparen...und es geht hier um ganze Domain-Listen
Vegas hat geschrieben:Wenn Du eine CMS Erkennung suchst
Na eher weniger. Ich bin mir sicher ich habe so ein Tool wie ich es suche schonmal irgendwo auf einer amerikanischen Seite gesehen...ich recherchier mal nochmal danach
Lyk hat geschrieben:https://www.fastblogfinder.com/
habe ich auch schon benutzt, ist jetzt aber auch nicht das gelbe vom Ei

Verfasst: 16.01.2013, 17:30
von mtlmaster
Scrapebox

Verfasst: 16.01.2013, 18:43
von Guy-Incognito
Ich machs jetzt einfach mit Google. Benutze einfach die benutzerdefinierte Suche auf: https://www.google.de/cse/manage/create und kann ganze URL Listen einfügen um diese dann bspweise mit "inurl:blog" zu durchsuchen. Geht also auch

Verfasst: 17.01.2013, 07:38
von mtx93
Linux tools.

Curl oder wget um die Webseite zu pullen, wenn nötig, dann grep & sed um per regex nach der needle zu suchen.

Get auch mit php, da sind die regex Funktionen eingebaut, die liefern dir das dann als sortiertes array.

Verfasst: 24.01.2013, 20:22
von cosmoglobe
Selber coden, ansonsten Scrapebox