Seite 1 von 1

wie aufwändig ist ein eigener Backlink-Crawler

Verfasst: 03.06.2010, 16:15
von Frey
Hallo Leute ich überlege mir ein eigenen BacklinkIndex anzulegen.

ich würde einen eigen in C++ geschriebenen Crawler auf nem Server + DB auf das Internet jagen.

Bevor ich allerding soetwas realisiere, möchte ich mal erfragen wie aufwändig die Datenspeicherung werden wird.

Ich würde in meine Datenbank nur die Quell und die Ziel Domain speichern.

das wären dann so ca. 40 Byte pro Record bzw. Backlink.

Mit 1GB könnt ich dann 25.000.000 Backlinks halten.
sagen wir mal ich hab ne DB mit 80GB zu Verfügung. meint Ihr das richt um einen ordentlichen Index aufzubauen?

MfG
Frey

Verfasst:
von

Verfasst: 03.06.2010, 18:27
von PapaRatzi
Das Problem wird eher die Crawling-Geschwindigkeit sein bzw. das Aktuellhalten der Daten....

Kann man in C++ mehrere Seiten gleichzeitig spidern?

Interessant wäre sicher auch den Linktext zu speichern...

Re: wie aufwändig ist ein eigener Backlink-Crawler

Verfasst: 03.06.2010, 19:40
von profo
Frey hat geschrieben:Ich würde in meine Datenbank nur die Quell und die Ziel Domain speichern.
das wären dann so ca. 40 Byte pro Record bzw. Backlink.
Mit 1GB könnt ich dann 25.000.000 Backlinks halten.
sagen wir mal ich hab ne DB mit 80GB zu Verfügung. meint Ihr das richt um einen ordentlichen Index aufzubauen?
Nein. Das wäre in der Größenordnung so ähnlich, wie wenn Du Deine Wohnung kartierst, um damit eine Karte von Deutschland zu bekommen.

Ich hab hier mal einen 1 Jahr alten Beitrag von Rand Fishkin: Lessons Learned Building an Index of the WWW. Zum Zeitpunkt des Artikels hatte ihr Index etwa 230 Millionen Subdomains (allein 10 mal mehr Subdomains, als Du für die Backlinks veranschlagst) und knapp 500 Milliarden Links (20000 mal mehr, als bei Dir).

Zudem schätzt Du den Platzbedarf für einen Link viel zu klein ein (URLs bekommst Du nicht in 40 Bytes gespeichert, dazu kommen Statusdaten wie der letzte Zugriff, Statuscodes des Servers, 301/302 Redirects und vieles mehr. Die Programmiersprache spielt übrigens keine Rolle; der begrenzende Faktor ist vor allem der Internet-IO. Und, eigene geschriebene Crawler nerven die Webmaster, da sie fast schon mit Sicherheit einige Anläufe brauchen, bis sie auch nur halbwegs korrekt mit den Servern umgehen können.

Mein Tipp: spiel ruhig ein wenig herum, aber denk dran, dass Du mit einem einzigen Server genau genommen nur Quatsch hinbekommen kannst.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 03.06.2010, 20:28
von Frey
aus diesem Grund würde ich ja nur quelldomain und zieldomain + timestamp speichern.

wenn die domains dann nur foreign keys sind auf eine Domain table (3. normalform) dürfte es das noch ein bisle optimieren was die datenspeicherung angeht.

klar würde der eigentliche crawling prozess auf einem server nicht ausreichen.
Kann man in C++ mehrere Seiten gleichzeitig spidern?
via threads

Verfasst: 03.06.2010, 21:03
von profo
Wie gesagt, probier es aus und lern daraus :wink:

Verfasst: 03.06.2010, 21:38
von Frey
da das Ziel ja ein halbwegs brauchbarer Backlink Index ist, wäre es auch ne Überlegung die TOP100 Google Ergebnisse einer Keyworddatenbank auf Links zu prüfen.

Ich weiß nicht ob das für einen brauchbaren Backlink Index reicht?
was meint Ihr?