Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Eigenen Webcrawler ans Netz bringen

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
Anonymous

Beitrag von Anonymous » 20.11.2008, 22:51

hi,

wie lässt sich eine eigene Datenbank am besten realisieren? Gibt es da gute opensource-projekte? mit welchen traffickosten ist zu rechnen?

ich danke euch vorab!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Boa
PostRank 9
PostRank 9
Beiträge: 1170
Registriert: 11.11.2003, 00:19
Wohnort: Bremen

Beitrag von Boa » 20.11.2008, 23:10


seomedius
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 26.08.2008, 15:58

Beitrag von seomedius » 20.11.2008, 23:14

Ansonsten könnte dir auch https://de.php.net/curl bei der Programmierung eines Crawlers helfen.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


800XE
PostRank 10
PostRank 10
Beiträge: 5223
Registriert: 02.12.2004, 03:03

Beitrag von 800XE » 21.11.2008, 00:19

hermeneuticus hat geschrieben:hi,

wie lässt sich eine eigene Datenbank am besten realisieren? Gibt es da gute opensource-projekte? mit welchen traffickosten ist zu rechnen?
mySQL oder PostGres oder Oracel oder sowas
+
als Google noch anzeigte wieviele Seiten sie im Index hatten waren es 8.ooo.ooo.ooo glaub ich ... Heute viel mehr

je Seite mal 20Kilobyte angenommen
=
8.ooo.ooo.ooo * 2o.ooo
8o.ooo.ooo.ooo.ooo * 2o.ooo
= 8o.ooo.ooo Giga

wieviel Kostet ein Giga ... 10cent 50cent oder gar ein Euro?
selbst bei 10cent oder 1cent .... ist zu teuer
( kauf erstmal die Festplatten zum cachen :D )


oder rechen sorum ...
Netzwerkkarte 100Mega per Secend
= soundsoviel Giga am Tag oder im Monat = soundsoviel €

Gruß
Andy 800XE Zmuda

phiro
PostRank 3
PostRank 3
Beiträge: 71
Registriert: 02.12.2005, 22:03

Beitrag von phiro » 21.11.2008, 13:13

openwebspider ist noch ganz spannend....

ole1210
PostRank 10
PostRank 10
Beiträge: 7464
Registriert: 12.08.2005, 10:40
Wohnort: Olpe

Beitrag von ole1210 » 21.11.2008, 15:29

Ich glaube du solltest dein Geld und deine Zeit nicht in Hard- und Software investieren, sondern eher nen paar Patenbschaften von índischen Kindern übernehmen. Denen stellst du nen paar OLPC Kisten hin und schon hast dui deinen eigenen Crawler.

In Zeiten mit geringem Traffic kannst du die sogar noch an Otto, neckermann unc Co. weitervermieten um T-Shirts zu besticken...

Will sagen...alleine kannst du nen Crawler vergessen. Und selbst wenn du viele Leute, viel Zeit und viel Idealismus hast....früher oder später wird das im Sande verlaufen.

Es sei denn, du willst nen Crawler für nen begrenztes Intranet oder ähnliches programmieren.

3DCG
PostRank 7
PostRank 7
Beiträge: 550
Registriert: 22.01.2006, 20:11
Wohnort: FFM

Beitrag von 3DCG » 21.11.2008, 20:05


seofonia
PostRank 4
PostRank 4
Beiträge: 120
Registriert: 10.11.2008, 00:00

Beitrag von seofonia » 21.11.2008, 21:43

Mit einem eigenen Crawler kann man natürlich auch an schöne Daten kommen... Bei dem Thema möchte ich auf den Beitrag von Matthias hinweisen, dass es rechtlich auch gut durchdacht werden sollte: https://www.rentaseo.de/web-marketing/s ... itung.html

GreenHorn
PostRank 10
PostRank 10
Beiträge: 4487
Registriert: 19.12.2005, 15:01

Beitrag von GreenHorn » 21.11.2008, 22:41

seofonia hat geschrieben:Mit einem eigenen Crawler kann man natürlich auch an schöne Daten kommen...
Richtig. Zum Glück ist das alles nicht ganz so einfach wie es klingt, sonst müßten wir schon Abmahnungen wegen Content Diebstahl in den Kindergarten schicken...

SEO-Evangelium
Nutzer/in
Nutzer/in
Beiträge: 862
Registriert: 10.11.2008, 20:58

Beitrag von SEO-Evangelium » 21.11.2008, 23:39

Hehehehehehehe... ja, die lieben Kleinen. Früher haben Neue bei Abakus immer gefragt: Meine Seite ist so schön, warum rankt die nicht. Heute versuchen sie gleich Google zu kopieren.

Anonymous

Beitrag von Anonymous » 27.11.2008, 13:36

wie macht denn sistrix oder keyword-datenbank.de das mit der eigenen datenbank? crawlen die nur reduziert?

e-fee
PostRank 10
PostRank 10
Beiträge: 3893
Registriert: 08.05.2007, 12:53

Beitrag von e-fee » 27.11.2008, 14:33

Nun, Sistrix HAT Traffickosten (und welche für Hardware), darauf kannst Du einen lassen, daher sind ja auch die neuen Tools nicht mehr kostenlos.
Bloß spielen Firmen wie Sistrix auch umsatztechnisch in einer etwas höheren Liga, und wenn's dann man mal 4- oder niedrig 5-stellig pro Monat wird (kenne die Zahlen nicht, halte solche Werte aber für realistisch), amortisiert sich das immer noch, weil man Top-Tools und -Statistiken für die eigene Arbeit hat, von denen Nebenprodukte dann freundlicherweise der Öffentlichkeit zur Verfügung gestellt werden.
Es gibt auch SEO-Tools, die mal eben 30.000 im Monat kosten.

Man sollte sowas vielleicht nicht auf seinen 08/15-Webspace setzen, sondern schon mehrere eigene Server und vor allem Ahnung haben, was man da tut und wie man das tut.
Allein die Eingangsfrage klingt für mich aber so, als wäre letzteres bei Dir nicht gerade der Fall. Du willst Webseiten crawlen, ok. Und dann? Willst Du 'ne Suchmaschine, 'nen Backlink-Checker, oder was genau? Um zu wissen, welche Keywords gesucht werden, braucht man auch wiederum keinen Webseiten-Crawler, sondern muss ich die Daten anders beschaffen.

Falls es denn 'ne Suchmaschine werden soll, würde ich das Buch hier mal von vorn bis hinten zu lesen empfehlen, da steht auch drin, wie man die Daten speichern könnte.

smilla
PostRank 5
PostRank 5
Beiträge: 268
Registriert: 28.07.2008, 19:14

Beitrag von smilla » 27.11.2008, 15:02

Ich baue ja auch grad einen Web Spider für eine bestimmte Nischensuchmaschine (Gibt es noch nicht, auch bei Google nicht :) ). Ich erwarte so ca. 2-10 Milliarden Datensätze also noch recht überschaubar. Ich nutze auch kein php, perl oder sowas, sondern habe da eine richtige Software, die alles macht und auch mit mehreren Threads (asynchrone socket verbindungen) arbeitet. Das ganze ist dann auch so verteilt, dass ich bei den Domains nicht nacheinander die Seiten aufrufe, sondern eine Seite Aufrufe, mich dann wieder um anderen Domains kümmert und irgendwann wieder eine Seite aufrufe. Theoretisch gesehen, könnte die Spider Anwendung dann noch auf mehreren Rechner laufen, um mehr in schnellerer Zeit zu spidern.

Thorny
PostRank 4
PostRank 4
Beiträge: 110
Registriert: 08.01.2008, 15:49

Beitrag von Thorny » 28.11.2008, 09:58

@smilla
Ein vernünftigen Webspider läßt sich auch über PHP realisieren. Über geforkte Prozesse, der Einbeziehung der Systemlast und dem parallelen Download der Seiten ist das sogar in einer vernünftigen Qualität möglich.
Das Problem ist aber weniger die Crawlersoftware für solche Projekte, sondern die dahinterstehende Infrastruktur. Für gewöhnlich reicht ein Crawler nicht. Aber 2 können auch zu wenig sein. Und so weiter. Als benötigt man eine Infrastruktur die besonders leicht erweiterbar wird. Dann kommt die Frage der Datenhaltung. Kompression, Auswertung usw. Soll das der Crawler übernehmen oder sollten die Cralwer einfach nur schlanke Rechner mit guter Internetanbindung sein? Dann sollten die Rechner zur Auswertung deutlich besser - und damit auch teurer - sein. ;) Und so weiter....
https://www.ex-domain.de - kostenlos gelöschte Domains finden

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag