Eigenen Webcrawler ans Netz bringen

Beitrag von **Anonymous** » 20.11.2008, 22:51

hi,

wie lässt sich eine eigene Datenbank am besten realisieren? Gibt es da gute opensource-projekte? mit welchen traffickosten ist zu rechnen?

ich danke euch vorab!

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **Boa** » 20.11.2008, 23:10

https://www.mnogosearch.org/

Beitrag von **seomedius** » 20.11.2008, 23:14

Ansonsten könnte dir auch https://de.php.net/curl bei der Programmierung eines Crawlers helfen.

von **Anzeige von ABAKUS** »

Beitrag von **800XE** » 21.11.2008, 00:19

hermeneuticus hat geschrieben:hi,

wie lässt sich eine eigene Datenbank am besten realisieren? Gibt es da gute opensource-projekte? mit welchen traffickosten ist zu rechnen?

mySQL oder PostGres oder Oracel oder sowas
+
als Google noch anzeigte wieviele Seiten sie im Index hatten waren es 8.ooo.ooo.ooo glaub ich ... Heute viel mehr

je Seite mal 20Kilobyte angenommen
=
8.ooo.ooo.ooo * 2o.ooo
8o.ooo.ooo.ooo.ooo * 2o.ooo
= 8o.ooo.ooo Giga

wieviel Kostet ein Giga ... 10cent 50cent oder gar ein Euro?
selbst bei 10cent oder 1cent .... ist zu teuer
( kauf erstmal die Festplatten zum cachen

)

oder rechen sorum ...
Netzwerkkarte 100Mega per Secend
= soundsoviel Giga am Tag oder im Monat = soundsoviel €

Gruß
Andy 800XE Zmuda

Beitrag von **phiro** » 21.11.2008, 13:13

openwebspider ist noch ganz spannend....

Beitrag von **ole1210** » 21.11.2008, 15:29

Ich glaube du solltest dein Geld und deine Zeit nicht in Hard- und Software investieren, sondern eher nen paar Patenbschaften von índischen Kindern übernehmen. Denen stellst du nen paar OLPC Kisten hin und schon hast dui deinen eigenen Crawler.

In Zeiten mit geringem Traffic kannst du die sogar noch an Otto, neckermann unc Co. weitervermieten um T-Shirts zu besticken...

Will sagen...alleine kannst du nen Crawler vergessen. Und selbst wenn du viele Leute, viel Zeit und viel Idealismus hast....früher oder später wird das im Sande verlaufen.

Es sei denn, du willst nen Crawler für nen begrenztes Intranet oder ähnliches programmieren.

Beitrag von **3DCG** » 21.11.2008, 20:05

https://java-source.net/open-source/crawlers

.

Beitrag von **seofonia** » 21.11.2008, 21:43

Mit einem eigenen Crawler kann man natürlich auch an schöne Daten kommen... Bei dem Thema möchte ich auf den Beitrag von Matthias hinweisen, dass es rechtlich auch gut durchdacht werden sollte: https://www.rentaseo.de/web-marketing/s ... itung.html

Beitrag von **GreenHorn** » 21.11.2008, 22:41

seofonia hat geschrieben:Mit einem eigenen Crawler kann man natürlich auch an schöne Daten kommen...

Richtig. Zum Glück ist das alles nicht ganz so einfach wie es klingt, sonst müßten wir schon Abmahnungen wegen Content Diebstahl in den Kindergarten schicken...

Beitrag von **SEO-Evangelium** » 21.11.2008, 23:39

Hehehehehehehe... ja, die lieben Kleinen. Früher haben Neue bei Abakus immer gefragt: Meine Seite ist so schön, warum rankt die nicht. Heute versuchen sie gleich Google zu kopieren.

Beitrag von **Anonymous** » 27.11.2008, 13:36

wie macht denn sistrix oder keyword-datenbank.de das mit der eigenen datenbank? crawlen die nur reduziert?

Beitrag von **e-fee** » 27.11.2008, 14:33

Nun, Sistrix HAT Traffickosten (und welche für Hardware), darauf kannst Du einen lassen, daher sind ja auch die neuen Tools nicht mehr kostenlos.
Bloß spielen Firmen wie Sistrix auch umsatztechnisch in einer etwas höheren Liga, und wenn's dann man mal 4- oder niedrig 5-stellig pro Monat wird (kenne die Zahlen nicht, halte solche Werte aber für realistisch), amortisiert sich das immer noch, weil man Top-Tools und -Statistiken für die eigene Arbeit hat, von denen Nebenprodukte dann freundlicherweise der Öffentlichkeit zur Verfügung gestellt werden.
Es gibt auch SEO-Tools, die mal eben 30.000 im Monat kosten.

Man sollte sowas vielleicht nicht auf seinen 08/15-Webspace setzen, sondern schon mehrere eigene Server und vor allem Ahnung haben, was man da tut und wie man das tut.
Allein die Eingangsfrage klingt für mich aber so, als wäre letzteres bei Dir nicht gerade der Fall. Du willst Webseiten crawlen, ok. Und dann? Willst Du 'ne Suchmaschine, 'nen Backlink-Checker, oder was genau? Um zu wissen, welche Keywords gesucht werden, braucht man auch wiederum keinen Webseiten-Crawler, sondern muss ich die Daten anders beschaffen.

Falls es denn 'ne Suchmaschine werden soll, würde ich das Buch hier mal von vorn bis hinten zu lesen empfehlen, da steht auch drin, wie man die Daten speichern könnte.

Beitrag von **smilla** » 27.11.2008, 15:02

Ich baue ja auch grad einen Web Spider für eine bestimmte Nischensuchmaschine (Gibt es noch nicht, auch bei Google nicht

). Ich erwarte so ca. 2-10 Milliarden Datensätze also noch recht überschaubar. Ich nutze auch kein php, perl oder sowas, sondern habe da eine richtige Software, die alles macht und auch mit mehreren Threads (asynchrone socket verbindungen) arbeitet. Das ganze ist dann auch so verteilt, dass ich bei den Domains nicht nacheinander die Seiten aufrufe, sondern eine Seite Aufrufe, mich dann wieder um anderen Domains kümmert und irgendwann wieder eine Seite aufrufe. Theoretisch gesehen, könnte die Spider Anwendung dann noch auf mehreren Rechner laufen, um mehr in schnellerer Zeit zu spidern.

Beitrag von **Thorny** » 28.11.2008, 09:58

@smilla
Ein vernünftigen Webspider läßt sich auch über PHP realisieren. Über geforkte Prozesse, der Einbeziehung der Systemlast und dem parallelen Download der Seiten ist das sogar in einer vernünftigen Qualität möglich.
Das Problem ist aber weniger die Crawlersoftware für solche Projekte, sondern die dahinterstehende Infrastruktur. Für gewöhnlich reicht ein Crawler nicht. Aber 2 können auch zu wenig sein. Und so weiter. Als benötigt man eine Infrastruktur die besonders leicht erweiterbar wird. Dann kommt die Frage der Datenhaltung. Kompression, Auswertung usw. Soll das der Crawler übernehmen oder sollten die Cralwer einfach nur schlanke Rechner mit guter Internetanbindung sein? Dann sollten die Rechner zur Auswertung deutlich besser - und damit auch teurer - sein.

Und so weiter....