Seite 1 von 1

Spider, der nach Bildern sucht

Verfasst: 09.04.2007, 10:25
von beachdiddi
Hallo Zusammen!

Wie schon aus dem Titel zu entnehmen ist, bin ich auf der Suche nach einem kleinen Robot, mit dem ich durch das Web crawlen kann.
Ich will keine Suchmaschine bauen, das heißt ich will nicht alle Seiten speichern oder indizieren.
Mein eigentliches Ziel ist es auf den Seiten nach Bildern zu suchen und diese mit einer eigenen Methode auf Gleichheit mit vorhandenen Bildern in einem Ordner, die auf der Festplatte gespeichert sind, zu vergleichen. (Es geht ums Urheberrecht von Bildern)

Da es sich um ein vorgegebenes Projekt handelt bin ich an Java gebunden. Ich habe auch schon einige Webspider gefunden. (Snatch, Websphinx). Jedoch noch keinen, der meine Ansprüche erfüllt. Die meisten bieten schon fast zu viel Funktionalität.
Ich habe auch nicht erwartet einen zu finden. Aber falls es so gewesen wäre, wäre das ja für mich extrem arbeitserleichternd gewesen. :D

Mich würde interessieren was ihr denkt wie ich vorgehen sollte.
Sollte ich einen vorgefertigten Spider nehmen und diesen auf meine Bedürfnisse zuschneiden?
Oder lieber doch von Grund auf selbst einen programmieren?
Ich kann nicht einschätzen was sinnvoller ist. Ich denke, dass sowohl das anpassen eines vorhandenen Spiders schwierig ist, als auch das Schreiben eines Eigenen.
Wahrscheinlich hat ja jemand von euch Erfahrung mit Spidern und hat vielleicht einen Tip auf Lager.

Vielen Dank schonmal im voraus,

mfg, beachdiddi

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 10.04.2007, 12:51
von blinkster
Hallo,

also ich habe mal vor Jahren selbst einen geschrieben. Allerdings zum crawlen von Webseiten mit Spamfilter etc.

Ein Tipp vorne weg: Programmiere auf keinen Fall in PHP, du stößt bei der Sprache ganz schnell an die Grenzen des Machbaren. Und ich rede da nicht nur von der krückenhaften Verarbeitung von PHP... :roll:

Verfasst: 10.04.2007, 16:11
von beachdiddi
blinkster hat geschrieben:Hallo,

also ich habe mal vor Jahren selbst einen geschrieben. Allerdings zum crawlen von Webseiten mit Spamfilter etc.

Ein Tipp vorne weg: Programmiere auf keinen Fall in PHP, du stößt bei der Sprache ganz schnell an die Grenzen des Machbaren. Und ich rede da nicht nur von der krückenhaften Verarbeitung von PHP... :roll:
Ok, danke für den Tip mit PHP. Da ich das Ganze sowieso in Java implementieren will, stellt sich die Frage nach PHP für mich aber überhaupt nicht. :)

Was ist Deine Meinung zum Aufwand? Anpassen oder selbst schreiben???

Verfasst:
von

Verfasst: 12.04.2007, 13:47
von beachdiddi
Hat denn niemand einen klitzekleinen Tip für mich? :(

Oder Erfahrungswerte???

Wäre echt super! :-?

Verfasst: 14.04.2007, 23:29
von nemoralis
Mein klitzekleiner Tipp: selbst schreiben. Ist bestimmt schneller als jetzt lang im i-net nach etwas fertigem zu suchen und macht auch mehr Eindruck bei den Prüfern.
(Da java nehme ich doch mal stark an das du an der praktischen Abschlussarbeit für Fachinformatiker teilnimmst, oder?)

Die schaun sich den Code an und wenn du ihnen dann funktion x nicht richtig erklären kannst oder die Classenstruktor nicht begründen kannst (z.B. bei einem fertigen und leicht abgeänderten Spider) schaust du dumm.

Such dir eine fertige TCP/IP Classe über die du eine Verbindung zu Webservern aufbaun kannst.

Für den Funktionsablauf würd ich in etwa so etwas machen:

Link 1 laden --> alle urls im Dokument extrahieren, die auf html und php files in eine Textdatei schreiben (falls dort nicht schon mehr als 1000 drinn stehen)
und alle images runterladen (dann mit deiner engine vergleichen, entweder löschen oder in den bilderordner verschieben).

die datei mit den html links drinn laden, mit dem obenstehensten weitermachen und diesen aus der datei herrauslöschen. immer so weiter in einer endlosschleife...

Naja, das ist jetzt wirklich die einfachste version eines crawlers der seiten wahllos läd auch wenn diese schon 20 mal herruntergeladen wurden. könntest ja noch eine blacklist für bereits besuchte dazu schreiben, aber die sollte dann schon mysql sein mit textdateien schmiert das ding sonst irgendwann ab.

Mit Java kann ich dir leider nicht helfen, ich kann nur Objekt Pascal (delphi). Java soll ja sogar noch schneller sein, fast wie C#.

Falls jemand eine spider-engine in delphi (egal welche version) mit sourcecode kennt, bitte mir mitteilen :)

Verfasst: 14.04.2007, 23:36
von nemoralis
Ach ja, und vielleicht währe ein kleiner index nicht schlecht so in form von
bild1 | https://www.urlwodasbildgefundenwurde
bild2 | https://www.urlwodasbildgefundenwurde

sonst entdeckt deine engine ein kopiertes bild nur weis nicht woher es kommt :P

Verfasst: 15.04.2007, 00:49
von beachdiddi
nemoralis hat geschrieben:Mein klitzekleiner Tipp: selbst schreiben. Ist bestimmt schneller als jetzt lang im i-net nach etwas fertigem zu suchen und macht auch mehr Eindruck bei den Prüfern.
(Da java nehme ich doch mal stark an das du an der praktischen Abschlussarbeit für Fachinformatiker teilnimmst, oder?)
Danke nemoralis! Ich dachte schon es hat niemand einen Tip für mich. Ich denke, dass das auf jeden Fall der Weg sein sollte. Die fertigen Spider bieten schon zu viel Funktionalität, die ich gar nicht brauche.
Ach übrigens, ich studiere Wirtschaftsinformatik. :D
nemoralis hat geschrieben: Such dir eine fertige TCP/IP Classe über die du eine Verbindung zu Webservern aufbaun kannst.
Da werd mir mal eine suchen.
nemoralis hat geschrieben: Für den Funktionsablauf würd ich in etwa so etwas machen:

Link 1 laden --> alle urls im Dokument extrahieren, die auf html und php files in eine Textdatei schreiben (falls dort nicht schon mehr als 1000 drinn stehen)
und alle images runterladen (dann mit deiner engine vergleichen, entweder löschen oder in den bilderordner verschieben).

die datei mit den html links drinn laden, mit dem obenstehensten weitermachen und diesen aus der datei herrauslöschen. immer so weiter in einer endlosschleife...

Naja, das ist jetzt wirklich die einfachste version eines crawlers der seiten wahllos läd auch wenn diese schon 20 mal herruntergeladen wurden. könntest ja noch eine blacklist für bereits besuchte dazu schreiben, aber die sollte dann schon mysql sein mit textdateien schmiert das ding sonst irgendwann ab.
Ok, das ist so ungefähr wie ich mir das selbst auch vorgestellt habe. Dann werd ich mich jetzt mal an die Arbeit machen um das Ganze umzusetzen.
Danke für Deine Hilfe!

mfg, beachdiddi :P