Spider, der nach Bildern sucht

Beitrag von **beachdiddi** » 09.04.2007, 10:25

Hallo Zusammen!

Wie schon aus dem Titel zu entnehmen ist, bin ich auf der Suche nach einem kleinen Robot, mit dem ich durch das Web crawlen kann.
Ich will keine Suchmaschine bauen, das heißt ich will nicht alle Seiten speichern oder indizieren.
Mein eigentliches Ziel ist es auf den Seiten nach Bildern zu suchen und diese mit einer eigenen Methode auf Gleichheit mit vorhandenen Bildern in einem Ordner, die auf der Festplatte gespeichert sind, zu vergleichen. (Es geht ums Urheberrecht von Bildern)

Da es sich um ein vorgegebenes Projekt handelt bin ich an Java gebunden. Ich habe auch schon einige Webspider gefunden. (Snatch, Websphinx). Jedoch noch keinen, der meine Ansprüche erfüllt. Die meisten bieten schon fast zu viel Funktionalität.
Ich habe auch nicht erwartet einen zu finden. Aber falls es so gewesen wäre, wäre das ja für mich extrem arbeitserleichternd gewesen.

Mich würde interessieren was ihr denkt wie ich vorgehen sollte.
Sollte ich einen vorgefertigten Spider nehmen und diesen auf meine Bedürfnisse zuschneiden?
Oder lieber doch von Grund auf selbst einen programmieren?
Ich kann nicht einschätzen was sinnvoller ist. Ich denke, dass sowohl das anpassen eines vorhandenen Spiders schwierig ist, als auch das Schreiben eines Eigenen.
Wahrscheinlich hat ja jemand von euch Erfahrung mit Spidern und hat vielleicht einen Tip auf Lager.

Vielen Dank schonmal im voraus,

mfg, beachdiddi

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **blinkster** » 10.04.2007, 12:51

Hallo,

also ich habe mal vor Jahren selbst einen geschrieben. Allerdings zum crawlen von Webseiten mit Spamfilter etc.

Ein Tipp vorne weg: Programmiere auf keinen Fall in PHP, du stößt bei der Sprache ganz schnell an die Grenzen des Machbaren. Und ich rede da nicht nur von der krückenhaften Verarbeitung von PHP...

Beitrag von **beachdiddi** » 10.04.2007, 16:11

blinkster hat geschrieben:Hallo,

also ich habe mal vor Jahren selbst einen geschrieben. Allerdings zum crawlen von Webseiten mit Spamfilter etc.

Ein Tipp vorne weg: Programmiere auf keinen Fall in PHP, du stößt bei der Sprache ganz schnell an die Grenzen des Machbaren. Und ich rede da nicht nur von der krückenhaften Verarbeitung von PHP...

Ok, danke für den Tip mit PHP. Da ich das Ganze sowieso in Java implementieren will, stellt sich die Frage nach PHP für mich aber überhaupt nicht.

Was ist Deine Meinung zum Aufwand? Anpassen oder selbst schreiben???

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **beachdiddi** » 12.04.2007, 13:47

Hat denn niemand einen klitzekleinen Tip für mich?

Oder Erfahrungswerte???

Wäre echt super!

Beitrag von **nemoralis** » 14.04.2007, 23:29

Mein klitzekleiner Tipp: selbst schreiben. Ist bestimmt schneller als jetzt lang im i-net nach etwas fertigem zu suchen und macht auch mehr Eindruck bei den Prüfern.
(Da java nehme ich doch mal stark an das du an der praktischen Abschlussarbeit für Fachinformatiker teilnimmst, oder?)

Die schaun sich den Code an und wenn du ihnen dann funktion x nicht richtig erklären kannst oder die Classenstruktor nicht begründen kannst (z.B. bei einem fertigen und leicht abgeänderten Spider) schaust du dumm.

Such dir eine fertige TCP/IP Classe über die du eine Verbindung zu Webservern aufbaun kannst.

Für den Funktionsablauf würd ich in etwa so etwas machen:

Link 1 laden --> alle urls im Dokument extrahieren, die auf html und php files in eine Textdatei schreiben (falls dort nicht schon mehr als 1000 drinn stehen)
und alle images runterladen (dann mit deiner engine vergleichen, entweder löschen oder in den bilderordner verschieben).

die datei mit den html links drinn laden, mit dem obenstehensten weitermachen und diesen aus der datei herrauslöschen. immer so weiter in einer endlosschleife...

Naja, das ist jetzt wirklich die einfachste version eines crawlers der seiten wahllos läd auch wenn diese schon 20 mal herruntergeladen wurden. könntest ja noch eine blacklist für bereits besuchte dazu schreiben, aber die sollte dann schon mysql sein mit textdateien schmiert das ding sonst irgendwann ab.

Mit Java kann ich dir leider nicht helfen, ich kann nur Objekt Pascal (delphi). Java soll ja sogar noch schneller sein, fast wie C#.

Falls jemand eine spider-engine in delphi (egal welche version) mit sourcecode kennt, bitte mir mitteilen

Beitrag von **nemoralis** » 14.04.2007, 23:36

Ach ja, und vielleicht währe ein kleiner index nicht schlecht so in form von
bild1 | https://www.urlwodasbildgefundenwurde
bild2 | https://www.urlwodasbildgefundenwurde

sonst entdeckt deine engine ein kopiertes bild nur weis nicht woher es kommt

Beitrag von **beachdiddi** » 15.04.2007, 00:49

nemoralis hat geschrieben:Mein klitzekleiner Tipp: selbst schreiben. Ist bestimmt schneller als jetzt lang im i-net nach etwas fertigem zu suchen und macht auch mehr Eindruck bei den Prüfern.
(Da java nehme ich doch mal stark an das du an der praktischen Abschlussarbeit für Fachinformatiker teilnimmst, oder?)

Danke nemoralis! Ich dachte schon es hat niemand einen Tip für mich. Ich denke, dass das auf jeden Fall der Weg sein sollte. Die fertigen Spider bieten schon zu viel Funktionalität, die ich gar nicht brauche.
Ach übrigens, ich studiere Wirtschaftsinformatik.

nemoralis hat geschrieben: Such dir eine fertige TCP/IP Classe über die du eine Verbindung zu Webservern aufbaun kannst.

Da werd mir mal eine suchen.

nemoralis hat geschrieben: Für den Funktionsablauf würd ich in etwa so etwas machen:

Link 1 laden --> alle urls im Dokument extrahieren, die auf html und php files in eine Textdatei schreiben (falls dort nicht schon mehr als 1000 drinn stehen)
und alle images runterladen (dann mit deiner engine vergleichen, entweder löschen oder in den bilderordner verschieben).

die datei mit den html links drinn laden, mit dem obenstehensten weitermachen und diesen aus der datei herrauslöschen. immer so weiter in einer endlosschleife...

Naja, das ist jetzt wirklich die einfachste version eines crawlers der seiten wahllos läd auch wenn diese schon 20 mal herruntergeladen wurden. könntest ja noch eine blacklist für bereits besuchte dazu schreiben, aber die sollte dann schon mysql sein mit textdateien schmiert das ding sonst irgendwann ab.

Ok, das ist so ungefähr wie ich mir das selbst auch vorgestellt habe. Dann werd ich mich jetzt mal an die Arbeit machen um das Ganze umzusetzen.
Danke für Deine Hilfe!

mfg, beachdiddi