Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

news crawler

Ajax, Hijax, Microformats, RDF, Markup, HTML, PHP, CSS, MySQL, htaccess, robots.txt, CGI, Java, Javascript usw.
Neues Thema Antworten
winorlose
PostRank 2
PostRank 2
Beiträge: 34
Registriert: 24.07.2005, 15:52

Beitrag von winorlose » 31.07.2005, 22:20

Hallo,


ich möchte eine Webseite erstellen, die News von anderen bestimmten Webseiten zu einem Themebereich anzeigt.
(Headline, Text, und Link zur Quelle)

Die News werden dann natürlich entsprechend gespeichert, und zB mittels PHP wird die Seite dynamisch gemacht.
Mein eigentliches Problem ist, wie ich an diese News komme,


Womit programmier ich ein Script/Eine Software(Serverseitig),
das zB alle 5 Minuten die Quellen durchsucht und neue News speichert,
wo ist ja erstmal egal, zB in einer Datenbank oder so.

Womit schreibt man sowas?

Ich kann C++, PHP und etwas ASP,

Und hab mir gedacht die Seite in PHP5 + XHTML zu schreiben, die News sollen dann in eine mySQL Db eingespeichert werden, und mittels PHP ausgelesen werden.

Meine Frage bezieht sich nur auf das "Crawlen" der News,
womit wird sowas normalerweise gelöst?

Womit ließe sich sowas am besten programmieren?
Zb Günstiger.de macht das ja auch ählich, die Produkte mit Preis von anderen Seiten sammeln,



thx schonmal

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

OnkelHotte
PostRank 6
PostRank 6
Beiträge: 439
Registriert: 29.06.2005, 07:05

Beitrag von OnkelHotte » 01.08.2005, 10:39

magpierss ist Dein Freund

winorlose
PostRank 2
PostRank 2
Beiträge: 34
Registriert: 24.07.2005, 15:52

Beitrag von winorlose » 01.08.2005, 18:37

aber nicht alle seiten haben rss feeds

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


winorlose
PostRank 2
PostRank 2
Beiträge: 34
Registriert: 24.07.2005, 15:52

Beitrag von winorlose » 01.08.2005, 18:38

ich will eigentlich nen crawler programmieren, und wissen womit man das macht :)

shapeshifter
PostRank 9
PostRank 9
Beiträge: 1480
Registriert: 20.10.2004, 16:01

Beitrag von shapeshifter » 01.08.2005, 18:55

Du willst also losziehen und Content-Grabbing betreiben........;) !

Und Du meinst im Ernst, du machst das länger als ne Woche ?

winorlose
PostRank 2
PostRank 2
Beiträge: 34
Registriert: 24.07.2005, 15:52

Beitrag von winorlose » 02.08.2005, 03:39

Was ist daran so schlimm?

Die Seite wird alle News, mit Link zur Quelle listen, das ist alles.

Macht das zB Google News nicht auch? Oder Finanznachrichten.de, oder guenstiger.de etc.

Mal abgesehen davon, wären konstruktive Postings besser.

OnkelHotte
PostRank 6
PostRank 6
Beiträge: 439
Registriert: 29.06.2005, 07:05

Beitrag von OnkelHotte » 02.08.2005, 06:54

Womit schreibt man sowas?

Ich kann C++, PHP und etwas ASP
na dann los.
Mal abgesehen davon, wären konstruktive Postings besser.
:shake:
  • Seite grabben (cache mittels e-tag prüfen!)
  • HTML rauswerfen
  • Ermitteln *WAS* sich auf der Seite geändert hat und *WAS* davon auch eine Änderung ist ("17 Kommentare" ist keine Änderung, die aktuelle Uhrzeit oder das Wetter auch nicht)
  • eintragen in Datenbank
Und die nächste Seite machen.

Vielleicht noch ca. alle 3 tage prüfen, ob es Änderungen gab. Gibt es die nicht ist der Bot mist oder die Seite ändert nix - gehört also nicht in Deine Datenbank.

Nachschauen *OB* und *WIE* Du den Content verwenden darfst. Bei gewerblichen Angeboten kann das so richtig teuer werden. Besser im Vorfeld abklären. Ein Anruf genügt meistens.

User-Agent nicht vergessen mitzuteilen, sonst muss ich wieder ganze IP-Netze mittels Deny in die htaccess eintragen, denn so langsam nerven Content-Grabber

shapeshifter
PostRank 9
PostRank 9
Beiträge: 1480
Registriert: 20.10.2004, 16:01

Beitrag von shapeshifter » 02.08.2005, 08:34

Was ist daran so schlimm?
Du hast innerhalb einer Woche dutzende Anwälte auf dem Hals, wenn du Content ohne Genehmigung zu eigenen Zwecken abbildest ;)
Die Seite wird alle News, mit Link zur Quelle listen, das ist alles.
Wenn du die Texte nicht lizensierst - wirds teuer !
Macht das zB Google News nicht auch?
Die haben vertragliche Bindungen mit den Lieferanten der News. Im Einzelfall musst Du zumindest auf die Nutzungsbedingungen und die AGB´s der einzelnen Opfer achten. Beachte dabei vor allem Passagen wie "auch Auszugsweise" ;)
Mal abgesehen davon, wären konstruktive Postings besser.
Dir ist hier die Rechtslage noch nicht ganz bewusst. Das was Du vorhast - ist so wie Du es momentan darstellst - strafbar.

Ausserden:
Wie wärs mal mit ein bisschen unique-Content - ist daran eigentlich niemand mehr interessiert ?

winorlose
PostRank 2
PostRank 2
Beiträge: 34
Registriert: 24.07.2005, 15:52

Beitrag von winorlose » 02.08.2005, 16:04

www.finanznachrichten.de

Was die machen ist also strafbar?
. . .
Die AdHoc News sind ja nicht von den Seiten selbst geschrieben,
das ist definitiv nicht strafbar,
höchstens deren eigene News Artikel, aber selbst das glaube ich nicht so ganz.

https://www.drweb.de/lexikon/content_grabbing.shtml

(Ich wollte eigentlich nicht genau wissen, WIE man sowas programmiert,
sondern welche Programmiersprache am besten dafür geeignet ist.

Ich habe gelesen das würde auch mit PHP Scripts gehen, die mittels Cronjobs aufgerufen werden, aber das ist nicht so die tolle Lösung,

Kennt ihr eine bessere?

shapeshifter
PostRank 9
PostRank 9
Beiträge: 1480
Registriert: 20.10.2004, 16:01

Beitrag von shapeshifter » 02.08.2005, 16:18

auch mit PHP
perl, php - meinetwegen sogar python.........

aber das ist dir alles zu kompliziert ?

Ich wüsste da ne Lösung für dich - wie früher :

ABSCHREIBEN :lol: !

winorlose
PostRank 2
PostRank 2
Beiträge: 34
Registriert: 24.07.2005, 15:52

Beitrag von winorlose » 02.08.2005, 17:02

Beantworte lieber mal die Frage,
anstatt drittklassige Witze abzuliefern,

das du Unrecht hattest hab ich ja schon bewiesen,
(siehe mein letztes Posting)

Oder hältst du noch immer dran fest, dass das Verboten ist, wo ich dir einen Link als Gegenbeweis geliefert habe?


Ich bezweifel mal, das der Suchbot von finanznachrichten.de in PHP geschrieben wurde,
da gibt es sicher andere Lösungen, kennt sich hier neimand damit aus?

shapeshifter
PostRank 9
PostRank 9
Beiträge: 1480
Registriert: 20.10.2004, 16:01

Beitrag von shapeshifter » 02.08.2005, 17:30

NEIN :lol:

PS: lies doch bitte mal deine eigenen Quellen:
In welcher Form der Inhalt verwertet werden darf, wird in den AGB des Anbieters festgelegt und in einer Nutzungsvereinbarung, mit der sich der Bezieher von Inhalten einverstanden erklären muss.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag