Seite 1 von 1
news crawler
Verfasst: 31.07.2005, 22:20
von winorlose
Hallo,
ich möchte eine Webseite erstellen, die News von anderen bestimmten Webseiten zu einem Themebereich anzeigt.
(Headline, Text, und Link zur Quelle)
Die News werden dann natürlich entsprechend gespeichert, und zB mittels PHP wird die Seite dynamisch gemacht.
Mein eigentliches Problem ist, wie ich an diese News komme,
Womit programmier ich ein Script/Eine Software(Serverseitig),
das zB alle 5 Minuten die Quellen durchsucht und neue News speichert,
wo ist ja erstmal egal, zB in einer Datenbank oder so.
Womit schreibt man sowas?
Ich kann C++, PHP und etwas ASP,
Und hab mir gedacht die Seite in PHP5 + XHTML zu schreiben, die News sollen dann in eine mySQL Db eingespeichert werden, und mittels PHP ausgelesen werden.
Meine Frage bezieht sich nur auf das "Crawlen" der News,
womit wird sowas normalerweise gelöst?
Womit ließe sich sowas am besten programmieren?
Zb Günstiger.de macht das ja auch ählich, die Produkte mit Preis von anderen Seiten sammeln,
thx schonmal
Verfasst:
von
Content Erstellung von
ABAKUS Internet Marketing
Ihre Vorteile:
- einzigartige Texte
- suchmaschinenoptimierte Inhalte
- eine sinnvolle Content-Strategie
- Beratung und Umsetzung
Jetzt anfragen:
0511 / 300325-0
news crawler
Verfasst: 01.08.2005, 10:39
von OnkelHotte
magpierss ist Dein Freund
news crawler
Verfasst: 01.08.2005, 18:37
von winorlose
aber nicht alle seiten haben rss feeds
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
news crawler
Verfasst: 01.08.2005, 18:38
von winorlose
ich will eigentlich nen crawler programmieren, und wissen womit man das macht

news crawler
Verfasst: 01.08.2005, 18:55
von shapeshifter
Du willst also losziehen und Content-Grabbing betreiben........

!
Und Du meinst im Ernst, du machst das länger als ne Woche ?
news crawler
Verfasst: 02.08.2005, 03:39
von winorlose
Was ist daran so schlimm?
Die Seite wird alle News, mit Link zur Quelle listen, das ist alles.
Macht das zB Google News nicht auch? Oder Finanznachrichten.de, oder guenstiger.de etc.
Mal abgesehen davon, wären konstruktive Postings besser.
news crawler
Verfasst: 02.08.2005, 06:54
von OnkelHotte
Womit schreibt man sowas?
Ich kann C++, PHP und etwas ASP
na dann los.
Mal abgesehen davon, wären konstruktive Postings besser.
- Seite grabben (cache mittels e-tag prüfen!)
- HTML rauswerfen
- Ermitteln *WAS* sich auf der Seite geändert hat und *WAS* davon auch eine Änderung ist ("17 Kommentare" ist keine Änderung, die aktuelle Uhrzeit oder das Wetter auch nicht)
- eintragen in Datenbank
Und die nächste Seite machen.
Vielleicht noch ca. alle 3 tage prüfen, ob es Änderungen gab. Gibt es die nicht ist der Bot mist oder die Seite ändert nix - gehört also nicht in Deine Datenbank.
Nachschauen *OB* und *WIE* Du den Content verwenden darfst. Bei gewerblichen Angeboten kann das so richtig teuer werden. Besser im Vorfeld abklären. Ein Anruf genügt meistens.
User-Agent nicht vergessen mitzuteilen, sonst muss ich wieder ganze IP-Netze mittels Deny in die htaccess eintragen, denn so langsam nerven Content-Grabber
news crawler
Verfasst: 02.08.2005, 08:34
von shapeshifter
Was ist daran so schlimm?
Du hast innerhalb einer Woche dutzende Anwälte auf dem Hals, wenn du Content ohne Genehmigung zu eigenen Zwecken abbildest
Die Seite wird alle News, mit Link zur Quelle listen, das ist alles.
Wenn du die Texte nicht lizensierst - wirds teuer !
Macht das zB Google News nicht auch?
Die haben vertragliche Bindungen mit den Lieferanten der News. Im Einzelfall musst Du zumindest auf die Nutzungsbedingungen und die AGB´s der einzelnen Opfer achten. Beachte dabei vor allem Passagen wie "auch Auszugsweise"
Mal abgesehen davon, wären konstruktive Postings besser.
Dir ist hier die Rechtslage noch nicht ganz bewusst. Das was Du vorhast - ist so wie Du es momentan darstellst - strafbar.
Ausserden:
Wie wärs mal mit ein bisschen unique-Content - ist daran eigentlich niemand mehr interessiert ?
news crawler
Verfasst: 02.08.2005, 16:04
von winorlose
www.finanznachrichten.de
Was die machen ist also strafbar?
. . .
Die AdHoc News sind ja nicht von den Seiten selbst geschrieben,
das ist definitiv nicht strafbar,
höchstens deren eigene News Artikel, aber selbst das glaube ich nicht so ganz.
https://www.drweb.de/lexikon/content_grabbing.shtml
(Ich wollte eigentlich nicht genau wissen, WIE man sowas programmiert,
sondern welche Programmiersprache am besten dafür geeignet ist.
Ich habe gelesen das würde auch mit PHP Scripts gehen, die mittels Cronjobs aufgerufen werden, aber das ist nicht so die tolle Lösung,
Kennt ihr eine bessere?
news crawler
Verfasst: 02.08.2005, 16:18
von shapeshifter
auch mit PHP
perl, php - meinetwegen sogar python.........
aber das ist dir alles zu kompliziert ?
Ich wüsste da ne Lösung für dich - wie früher :
ABSCHREIBEN

!
news crawler
Verfasst: 02.08.2005, 17:02
von winorlose
Beantworte lieber mal die Frage,
anstatt drittklassige Witze abzuliefern,
das du Unrecht hattest hab ich ja schon bewiesen,
(siehe mein letztes Posting)
Oder hältst du noch immer dran fest, dass das Verboten ist, wo ich dir einen Link als Gegenbeweis geliefert habe?
Ich bezweifel mal, das der Suchbot von finanznachrichten.de in PHP geschrieben wurde,
da gibt es sicher andere Lösungen, kennt sich hier neimand damit aus?
news crawler
Verfasst: 02.08.2005, 17:30
von shapeshifter
NEIN
PS: lies doch bitte mal deine eigenen Quellen:
In welcher Form der Inhalt verwertet werden darf, wird in den AGB des Anbieters festgelegt und in einer Nutzungsvereinbarung, mit der sich der Bezieher von Inhalten einverstanden erklären muss.