Seite 1 von 1

Image Scraping?

Verfasst: 08.02.2013, 17:48
von ElDiablo
Hi zusammen,

folgendes Problem habe ich:
Ein Hersteller liefert Produktbilder nur von relativ aktuellen Produkten, hat allerdings eine große Auswahl älterer Artikel noch "irgendwo" auf der Website gespeichert.

Das alte Problem mit den Agentur-geführten Seiten ist aber immer, dass man schwer jemanden an die Strippe bekommt, der einem "mal eben" die Bilder ziehen kann. Also würde ich gern per Scraper dran und mir alles ziehen, um die Bilder nachträglich durch einen Filter zu jagen und auf Artikelnummern abzugleichen.

Bin über ein paar Tools wie Image Host Grabber (FF Addon) gestoplert, aber so ganz ist es glaube ich noch nicht das was ich suche.
Hat jemand eine Idee, was man da gut benutzen könnte? Das Tool sollte natürlich Links verfolgen können. Gern auch mit einem gewissen Delay, um nicht ungewollt eine DDOS Attacke zu fahren ;-)

Grüße
El

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 08.02.2013, 17:53
von hanneswobus
sind die bilder per bildurl irgendwo, irgendwie erfassbar? ich habe irgendwo ein paar codeschnipsel herumliegen, wo man mit delphi fix einen bildscraper stricken kann.

gruß

Verfasst: 08.02.2013, 20:02
von ElDiablo
Schwierig, da sie (z.T.) nicht mehr unter den aktuellen Produkten verlinkt sind. Es ginge wohl am ehesten über eine Liste, die langsam über die Suchfunktion alles abarbeitet.

Aber die SuFu zu verwenden zieht eine Seite schon ganz schön in die Knie ;-)
Teils sind die Seiten aber noch nichtmal bei Google im Index, sonst könnte man diesen Weg gehen.

Die Sitemap ist auch recht klein, auch wenn es möglicherweise mehrere gibt. Auf den ersten Blick jedenfalls gibt es hier nix zu holen.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 08.02.2013, 20:14
von hanneswobus
mh. dann muesste man sich die seite einmal genauer anschauen. wieviele fotos willst du denn ziehen?

Verfasst: 08.02.2013, 20:50
von ElDiablo
Wenn ich wüsste was da liegt, aber das weiß der Hersteller selbst nicht ;-)

Sagen wir ich habe etwa 50k Artikel, die ein Bild vertragen könnten und bei etwa 2k wäre es extrem sinnvol. Bei diesen Artikeln ist die Chance auch recht groß, dass es ein Bild gibt.

Vielleicht müsste man wirklich etwas eigenes bauen. Eine Basis wäre z.B.
https://code.google.com/p/google-http-java-client/

Verfasst: 08.02.2013, 21:00
von hanneswobus
naja von java habe ich keine ahnung. ich entwickle meine apps immer mit delphi. hier gibts eine simple loesung fuer das herunter laden von _medien_, man muss halt nur wissen, wo diese _medien_ liegen. prinzipiell ist das _scrapen_ der _medienlinks_ aus beliebigen html-codes kein problem. kann man bei dir davon ausgehen, dass die sitemap saemtliche _medien_-verknuepfende html-dokumente umfasst? falls ja, waere hier eine eventuelle loesung zu finden ;-)

gruß

Verfasst: 08.02.2013, 21:24
von ElDiablo
Gut, Java oder Delphi wäre jetzt kein so großer Unterschied.
Pascal/Delphi ist bei mir nur schon ein paar Jährchen her ;-)

Wenn ich die URL zu jedem Bild hätte, wäre das Problem recht überschaubar, aber das gibt leider weder die Struktur der Seite, noch eine Sitemap wirklich her. Etwas komplizierter wirds leider schon werden.

Verfasst: 08.02.2013, 21:34
von hanneswobus
https://www.swissdelphicenter.ch/de/showcode.php?id=412 waere ein beispiel fuer den download einer datei

Verfasst: 08.02.2013, 21:45
von ElDiablo
Bei so Sachen wie While True und Breaks hätte mein Professor mich damals aus dem Kurs geworfen ;-)

Das Problem bleibt, dass ich weder Ort noch Dateinamen kenne. Mal sehen was ein paar befreundete Anwendungsentwickler dazu sagen ...

Verfasst: 08.02.2013, 21:53
von hanneswobus
dann schau dir mal https://www.auditmypc.com/free-sitemap-generator.asp an. ueber diesen weg duerftest du an die begehrten informationen kommen. du musst halt nur noch einen sitemapscraper basteln. :-)

Verfasst: 08.02.2013, 22:07
von ElDiablo
Falls die Seiten intern verlinkt sind, könnte das so klappen ... werde mal ein paar Stichproben machen.

Verfasst: 09.02.2013, 00:35
von Beloe007

Verfasst: 09.02.2013, 10:38
von hanneswobus
kriegste bei httrack auch die bilder im nachgang katalogisiert?

Verfasst: 09.02.2013, 12:52
von ElDiablo
Auch eine Idee, aber unverlinkte Bilder zu crawlen wird schwer.
Ich lass es grad mal laufen und gucke was ich erwische.

Verfasst: 09.02.2013, 17:46
von Beloe007
hanneswobus hat geschrieben:kriegste bei httrack auch die bilder im nachgang katalogisiert?
Das kann man dann mit lokalen Programmen machen, bei Bildern z.B. Ifranview vermutlich ganz gut geeignet.

Kommt halt darauf an wie, wo die Bilder gespeichert sind. Ansonsten kann man auch z.B. mit PHP relativ gut so Crawler basteln.

Aber für so ne Einmalsache ist httrack vermutlich schneller.