Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

wie aufwändig ist ein eigener Backlink-Crawler

Ajax, Hijax, Microformats, RDF, Markup, HTML, PHP, CSS, MySQL, htaccess, robots.txt, CGI, Java, Javascript usw.
Neues Thema Antworten
Frey
PostRank 3
PostRank 3
Beiträge: 89
Registriert: 15.04.2006, 20:22

Beitrag von Frey » 03.06.2010, 16:15

Hallo Leute ich überlege mir ein eigenen BacklinkIndex anzulegen.

ich würde einen eigen in C++ geschriebenen Crawler auf nem Server + DB auf das Internet jagen.

Bevor ich allerding soetwas realisiere, möchte ich mal erfragen wie aufwändig die Datenspeicherung werden wird.

Ich würde in meine Datenbank nur die Quell und die Ziel Domain speichern.

das wären dann so ca. 40 Byte pro Record bzw. Backlink.

Mit 1GB könnt ich dann 25.000.000 Backlinks halten.
sagen wir mal ich hab ne DB mit 80GB zu Verfügung. meint Ihr das richt um einen ordentlichen Index aufzubauen?

MfG
Frey

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

PapaRatzi
PostRank 6
PostRank 6
Beiträge: 366
Registriert: 02.12.2005, 12:03

Beitrag von PapaRatzi » 03.06.2010, 18:27

Das Problem wird eher die Crawling-Geschwindigkeit sein bzw. das Aktuellhalten der Daten....

Kann man in C++ mehrere Seiten gleichzeitig spidern?

Interessant wäre sicher auch den Linktext zu speichern...

profo
PostRank 9
PostRank 9
Beiträge: 1703
Registriert: 18.01.2007, 18:51

Beitrag von profo » 03.06.2010, 19:40

Frey hat geschrieben:Ich würde in meine Datenbank nur die Quell und die Ziel Domain speichern.
das wären dann so ca. 40 Byte pro Record bzw. Backlink.
Mit 1GB könnt ich dann 25.000.000 Backlinks halten.
sagen wir mal ich hab ne DB mit 80GB zu Verfügung. meint Ihr das richt um einen ordentlichen Index aufzubauen?
Nein. Das wäre in der Größenordnung so ähnlich, wie wenn Du Deine Wohnung kartierst, um damit eine Karte von Deutschland zu bekommen.

Ich hab hier mal einen 1 Jahr alten Beitrag von Rand Fishkin: Lessons Learned Building an Index of the WWW. Zum Zeitpunkt des Artikels hatte ihr Index etwa 230 Millionen Subdomains (allein 10 mal mehr Subdomains, als Du für die Backlinks veranschlagst) und knapp 500 Milliarden Links (20000 mal mehr, als bei Dir).

Zudem schätzt Du den Platzbedarf für einen Link viel zu klein ein (URLs bekommst Du nicht in 40 Bytes gespeichert, dazu kommen Statusdaten wie der letzte Zugriff, Statuscodes des Servers, 301/302 Redirects und vieles mehr. Die Programmiersprache spielt übrigens keine Rolle; der begrenzende Faktor ist vor allem der Internet-IO. Und, eigene geschriebene Crawler nerven die Webmaster, da sie fast schon mit Sicherheit einige Anläufe brauchen, bis sie auch nur halbwegs korrekt mit den Servern umgehen können.

Mein Tipp: spiel ruhig ein wenig herum, aber denk dran, dass Du mit einem einzigen Server genau genommen nur Quatsch hinbekommen kannst.