Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Image Scraping?

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 08.02.2013, 17:48

Hi zusammen,

folgendes Problem habe ich:
Ein Hersteller liefert Produktbilder nur von relativ aktuellen Produkten, hat allerdings eine große Auswahl älterer Artikel noch "irgendwo" auf der Website gespeichert.

Das alte Problem mit den Agentur-geführten Seiten ist aber immer, dass man schwer jemanden an die Strippe bekommt, der einem "mal eben" die Bilder ziehen kann. Also würde ich gern per Scraper dran und mir alles ziehen, um die Bilder nachträglich durch einen Filter zu jagen und auf Artikelnummern abzugleichen.

Bin über ein paar Tools wie Image Host Grabber (FF Addon) gestoplert, aber so ganz ist es glaube ich noch nicht das was ich suche.
Hat jemand eine Idee, was man da gut benutzen könnte? Das Tool sollte natürlich Links verfolgen können. Gern auch mit einem gewissen Delay, um nicht ungewollt eine DDOS Attacke zu fahren ;-)

Grüße
El

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

hanneswobus
PostRank 10
PostRank 10
Beiträge: 6386
Registriert: 16.03.2008, 01:39

Beitrag von hanneswobus » 08.02.2013, 17:53

sind die bilder per bildurl irgendwo, irgendwie erfassbar? ich habe irgendwo ein paar codeschnipsel herumliegen, wo man mit delphi fix einen bildscraper stricken kann.

gruß

ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 08.02.2013, 20:02

Schwierig, da sie (z.T.) nicht mehr unter den aktuellen Produkten verlinkt sind. Es ginge wohl am ehesten über eine Liste, die langsam über die Suchfunktion alles abarbeitet.

Aber die SuFu zu verwenden zieht eine Seite schon ganz schön in die Knie ;-)
Teils sind die Seiten aber noch nichtmal bei Google im Index, sonst könnte man diesen Weg gehen.

Die Sitemap ist auch recht klein, auch wenn es möglicherweise mehrere gibt. Auf den ersten Blick jedenfalls gibt es hier nix zu holen.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


hanneswobus
PostRank 10
PostRank 10
Beiträge: 6386
Registriert: 16.03.2008, 01:39

Beitrag von hanneswobus » 08.02.2013, 20:14

mh. dann muesste man sich die seite einmal genauer anschauen. wieviele fotos willst du denn ziehen?

ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 08.02.2013, 20:50

Wenn ich wüsste was da liegt, aber das weiß der Hersteller selbst nicht ;-)

Sagen wir ich habe etwa 50k Artikel, die ein Bild vertragen könnten und bei etwa 2k wäre es extrem sinnvol. Bei diesen Artikeln ist die Chance auch recht groß, dass es ein Bild gibt.

Vielleicht müsste man wirklich etwas eigenes bauen. Eine Basis wäre z.B.
https://code.google.com/p/google-http-java-client/

hanneswobus
PostRank 10
PostRank 10
Beiträge: 6386
Registriert: 16.03.2008, 01:39

Beitrag von hanneswobus » 08.02.2013, 21:00

naja von java habe ich keine ahnung. ich entwickle meine apps immer mit delphi. hier gibts eine simple loesung fuer das herunter laden von _medien_, man muss halt nur wissen, wo diese _medien_ liegen. prinzipiell ist das _scrapen_ der _medienlinks_ aus beliebigen html-codes kein problem. kann man bei dir davon ausgehen, dass die sitemap saemtliche _medien_-verknuepfende html-dokumente umfasst? falls ja, waere hier eine eventuelle loesung zu finden ;-)

gruß

ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 08.02.2013, 21:24

Gut, Java oder Delphi wäre jetzt kein so großer Unterschied.
Pascal/Delphi ist bei mir nur schon ein paar Jährchen her ;-)

Wenn ich die URL zu jedem Bild hätte, wäre das Problem recht überschaubar, aber das gibt leider weder die Struktur der Seite, noch eine Sitemap wirklich her. Etwas komplizierter wirds leider schon werden.

hanneswobus
PostRank 10
PostRank 10
Beiträge: 6386
Registriert: 16.03.2008, 01:39

Beitrag von hanneswobus » 08.02.2013, 21:34

https://www.swissdelphicenter.ch/de/showcode.php?id=412 waere ein beispiel fuer den download einer datei

ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 08.02.2013, 21:45

Bei so Sachen wie While True und Breaks hätte mein Professor mich damals aus dem Kurs geworfen ;-)

Das Problem bleibt, dass ich weder Ort noch Dateinamen kenne. Mal sehen was ein paar befreundete Anwendungsentwickler dazu sagen ...

hanneswobus
PostRank 10
PostRank 10
Beiträge: 6386
Registriert: 16.03.2008, 01:39

Beitrag von hanneswobus » 08.02.2013, 21:53

dann schau dir mal https://www.auditmypc.com/free-sitemap-generator.asp an. ueber diesen weg duerftest du an die begehrten informationen kommen. du musst halt nur noch einen sitemapscraper basteln. :-)

ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 08.02.2013, 22:07

Falls die Seiten intern verlinkt sind, könnte das so klappen ... werde mal ein paar Stichproben machen.

Beloe007
PostRank 10
PostRank 10
Beiträge: 2928
Registriert: 05.03.2009, 10:31

Beitrag von Beloe007 » 09.02.2013, 00:35


hanneswobus
PostRank 10
PostRank 10
Beiträge: 6386
Registriert: 16.03.2008, 01:39

Beitrag von hanneswobus » 09.02.2013, 10:38

kriegste bei httrack auch die bilder im nachgang katalogisiert?

ElDiablo
PostRank 9
PostRank 9
Beiträge: 1971
Registriert: 27.11.2011, 11:20

Beitrag von ElDiablo » 09.02.2013, 12:52

Auch eine Idee, aber unverlinkte Bilder zu crawlen wird schwer.
Ich lass es grad mal laufen und gucke was ich erwische.

Beloe007
PostRank 10
PostRank 10
Beiträge: 2928
Registriert: 05.03.2009, 10:31

Beitrag von Beloe007 » 09.02.2013, 17:46

hanneswobus hat geschrieben:kriegste bei httrack auch die bilder im nachgang katalogisiert?
Das kann man dann mit lokalen Programmen machen, bei Bildern z.B. Ifranview vermutlich ganz gut geeignet.

Kommt halt darauf an wie, wo die Bilder gespeichert sind. Ansonsten kann man auch z.B. mit PHP relativ gut so Crawler basteln.

Aber für so ne Einmalsache ist httrack vermutlich schneller.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag