Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Spider, der nach Bildern sucht

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
beachdiddi
PostRank 1
PostRank 1
Beiträge: 4
Registriert: 09.04.2007, 10:19
Wohnort: Bayern

Beitrag von beachdiddi » 09.04.2007, 10:25

Hallo Zusammen!

Wie schon aus dem Titel zu entnehmen ist, bin ich auf der Suche nach einem kleinen Robot, mit dem ich durch das Web crawlen kann.
Ich will keine Suchmaschine bauen, das heißt ich will nicht alle Seiten speichern oder indizieren.
Mein eigentliches Ziel ist es auf den Seiten nach Bildern zu suchen und diese mit einer eigenen Methode auf Gleichheit mit vorhandenen Bildern in einem Ordner, die auf der Festplatte gespeichert sind, zu vergleichen. (Es geht ums Urheberrecht von Bildern)

Da es sich um ein vorgegebenes Projekt handelt bin ich an Java gebunden. Ich habe auch schon einige Webspider gefunden. (Snatch, Websphinx). Jedoch noch keinen, der meine Ansprüche erfüllt. Die meisten bieten schon fast zu viel Funktionalität.
Ich habe auch nicht erwartet einen zu finden. Aber falls es so gewesen wäre, wäre das ja für mich extrem arbeitserleichternd gewesen. :D

Mich würde interessieren was ihr denkt wie ich vorgehen sollte.
Sollte ich einen vorgefertigten Spider nehmen und diesen auf meine Bedürfnisse zuschneiden?
Oder lieber doch von Grund auf selbst einen programmieren?
Ich kann nicht einschätzen was sinnvoller ist. Ich denke, dass sowohl das anpassen eines vorhandenen Spiders schwierig ist, als auch das Schreiben eines Eigenen.
Wahrscheinlich hat ja jemand von euch Erfahrung mit Spidern und hat vielleicht einen Tip auf Lager.

Vielen Dank schonmal im voraus,

mfg, beachdiddi

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

blinkster
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 26.10.2005, 17:41

Beitrag von blinkster » 10.04.2007, 12:51

Hallo,

also ich habe mal vor Jahren selbst einen geschrieben. Allerdings zum crawlen von Webseiten mit Spamfilter etc.

Ein Tipp vorne weg: Programmiere auf keinen Fall in PHP, du stößt bei der Sprache ganz schnell an die Grenzen des Machbaren. Und ich rede da nicht nur von der krückenhaften Verarbeitung von PHP... :roll:
Linktausch oder Ads (20.000 Impressions/Monat)? Mail per PN: Computer/EDV/et cetera
Blinkster.de - yet another computer forum
4 Euro pro 1000 Besucher verdienen

beachdiddi
PostRank 1
PostRank 1
Beiträge: 4
Registriert: 09.04.2007, 10:19
Wohnort: Bayern

Beitrag von beachdiddi » 10.04.2007, 16:11

blinkster hat geschrieben:Hallo,

also ich habe mal vor Jahren selbst einen geschrieben. Allerdings zum crawlen von Webseiten mit Spamfilter etc.

Ein Tipp vorne weg: Programmiere auf keinen Fall in PHP, du stößt bei der Sprache ganz schnell an die Grenzen des Machbaren. Und ich rede da nicht nur von der krückenhaften Verarbeitung von PHP... :roll:
Ok, danke für den Tip mit PHP. Da ich das Ganze sowieso in Java implementieren will, stellt sich die Frage nach PHP für mich aber überhaupt nicht. :)

Was ist Deine Meinung zum Aufwand? Anpassen oder selbst schreiben???

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


beachdiddi
PostRank 1
PostRank 1
Beiträge: 4
Registriert: 09.04.2007, 10:19
Wohnort: Bayern

Beitrag von beachdiddi » 12.04.2007, 13:47

Hat denn niemand einen klitzekleinen Tip für mich? :(

Oder Erfahrungswerte???

Wäre echt super! :-?

nemoralis
PostRank 2
PostRank 2
Beiträge: 40
Registriert: 28.01.2007, 00:50

Beitrag von nemoralis » 14.04.2007, 23:29

Mein klitzekleiner Tipp: selbst schreiben. Ist bestimmt schneller als jetzt lang im i-net nach etwas fertigem zu suchen und macht auch mehr Eindruck bei den Prüfern.
(Da java nehme ich doch mal stark an das du an der praktischen Abschlussarbeit für Fachinformatiker teilnimmst, oder?)

Die schaun sich den Code an und wenn du ihnen dann funktion x nicht richtig erklären kannst oder die Classenstruktor nicht begründen kannst (z.B. bei einem fertigen und leicht abgeänderten Spider) schaust du dumm.

Such dir eine fertige TCP/IP Classe über die du eine Verbindung zu Webservern aufbaun kannst.

Für den Funktionsablauf würd ich in etwa so etwas machen:

Link 1 laden --> alle urls im Dokument extrahieren, die auf html und php files in eine Textdatei schreiben (falls dort nicht schon mehr als 1000 drinn stehen)
und alle images runterladen (dann mit deiner engine vergleichen, entweder löschen oder in den bilderordner verschieben).

die datei mit den html links drinn laden, mit dem obenstehensten weitermachen und diesen aus der datei herrauslöschen. immer so weiter in einer endlosschleife...

Naja, das ist jetzt wirklich die einfachste version eines crawlers der seiten wahllos läd auch wenn diese schon 20 mal herruntergeladen wurden. könntest ja noch eine blacklist für bereits besuchte dazu schreiben, aber die sollte dann schon mysql sein mit textdateien schmiert das ding sonst irgendwann ab.

Mit Java kann ich dir leider nicht helfen, ich kann nur Objekt Pascal (delphi). Java soll ja sogar noch schneller sein, fast wie C#.

Falls jemand eine spider-engine in delphi (egal welche version) mit sourcecode kennt, bitte mir mitteilen :)

nemoralis
PostRank 2
PostRank 2
Beiträge: 40
Registriert: 28.01.2007, 00:50

Beitrag von nemoralis » 14.04.2007, 23:36

Ach ja, und vielleicht währe ein kleiner index nicht schlecht so in form von
bild1 | https://www.urlwodasbildgefundenwurde
bild2 | https://www.urlwodasbildgefundenwurde

sonst entdeckt deine engine ein kopiertes bild nur weis nicht woher es kommt :P

beachdiddi
PostRank 1
PostRank 1
Beiträge: 4
Registriert: 09.04.2007, 10:19
Wohnort: Bayern

Beitrag von beachdiddi » 15.04.2007, 00:49

nemoralis hat geschrieben:Mein klitzekleiner Tipp: selbst schreiben. Ist bestimmt schneller als jetzt lang im i-net nach etwas fertigem zu suchen und macht auch mehr Eindruck bei den Prüfern.
(Da java nehme ich doch mal stark an das du an der praktischen Abschlussarbeit für Fachinformatiker teilnimmst, oder?)
Danke nemoralis! Ich dachte schon es hat niemand einen Tip für mich. Ich denke, dass das auf jeden Fall der Weg sein sollte. Die fertigen Spider bieten schon zu viel Funktionalität, die ich gar nicht brauche.
Ach übrigens, ich studiere Wirtschaftsinformatik. :D
nemoralis hat geschrieben: Such dir eine fertige TCP/IP Classe über die du eine Verbindung zu Webservern aufbaun kannst.
Da werd mir mal eine suchen.
nemoralis hat geschrieben: Für den Funktionsablauf würd ich in etwa so etwas machen:

Link 1 laden --> alle urls im Dokument extrahieren, die auf html und php files in eine Textdatei schreiben (falls dort nicht schon mehr als 1000 drinn stehen)
und alle images runterladen (dann mit deiner engine vergleichen, entweder löschen oder in den bilderordner verschieben).

die datei mit den html links drinn laden, mit dem obenstehensten weitermachen und diesen aus der datei herrauslöschen. immer so weiter in einer endlosschleife...

Naja, das ist jetzt wirklich die einfachste version eines crawlers der seiten wahllos läd auch wenn diese schon 20 mal herruntergeladen wurden. könntest ja noch eine blacklist für bereits besuchte dazu schreiben, aber die sollte dann schon mysql sein mit textdateien schmiert das ding sonst irgendwann ab.
Ok, das ist so ungefähr wie ich mir das selbst auch vorgestellt habe. Dann werd ich mich jetzt mal an die Arbeit machen um das Ganze umzusetzen.
Danke für Deine Hilfe!

mfg, beachdiddi :P

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag