Seite 1 von 6

SEOkicks Backlinkcheck mit eigener Datenbasis

Verfasst: 11.07.2011, 08:21
von SEOkicks
Hallo zusammen,

nachdem gute und aktuelle Quellen für Backlinkdaten schwer zu finden sind und meist zu einem großen Teil auf Daten von Yahoo gesetzt wird generieren wir diese Daten seit einiger Zeit selbst.

Werktags zwischen 9 und 19 Uhr (Update 15.09.11: Ab sofort rund um die Uhr 7 Tage die Woche) steht unser Tool ab sofort auch kostenlos unter https://www.seokicks.de zur Verfügung. Im Gegenzug würden wir uns über über das eine oder andere konstruktive Feedback freuen ;)

Der Datenbestand wird täglich aktualisiert und ist nach Datum sortiert, so dass ihr immer zeitnah informiert seid wenn ihr - oder Eure Mitstreiter - einen neuen Link erhalten habt.

Viel Spaß & viel Erfolg :)

Verfasst:
von

Verfasst: 11.07.2011, 12:33
von she
nett, aber die ausbeute ist recht gering (oder von euch limitiert?)
will doch möglichst viel sehen!

Verfasst: 11.07.2011, 13:21
von SEOkicks
Es gibt aktuell ein Limit, dass der eher schwachen Hardware geschuldet ist. Bei der öffentlichen Suche werden im Moment die Backlinks von etwa 500.000 Domains berücksichtigt, wobei diese täglich aktualisiert werden. Tatsächlich vorhanden sind Datenmengen die um viele Dimensionen größer sind. Je nach Interesse und zukünftiger Serverauslastung werden wir die Zugriffsmöglichkeiten daher ggf. noch erweitern - oder eben nicht ;-)

Falls es Euch deutlich zu wenig Backlink-Daten sind und ihr abgesehen davon grundsätzlich schon Bedarf seht, dann ist das aber natürlich auch ein willkommenes Feedback!

Verfasst:
von

Verfasst: 11.07.2011, 17:47
von Hirnhamster
Naja, da der Site Explorer im Oktober die Segel streicht sehe ich da auf jeden Fall bedarf. Allerdings ist so ein Webcrawler nicht unbedingt einfach zu bauen.. habt ihr mal einen Datenabgleich mit anderen Tools gemacht (zb Majestic SEO)? Damit man die Datenqualität mal abschätzen kann.

Verfasst: 11.07.2011, 18:39
von SEOkicks
Die Technik des Crawlers ist bereits aus diversen anderen Projekten sehr ausgereift und in allen Tests und Stichproben wurden sämtliche Links korrekt erkannt: Die internen werden verfolgt, die externen landen inkl. der Linkattribute in der Datenbank. Natürlich ist es möglich via JavaScript Links so extrem zu verbiegen, dass sie der Crawler evtl. nicht verfolgt. Dies betrifft andere Suchmaschinen aber ähnlich stark und spricht sicher auch nicht gerade für die Wertigkeit dieser Links.

Die Linkdaten der ~500.000 überwachten Websites dürften insgesamt sehr vollständig sein - allerdings mit der Einschränkung, dass wir nur bis zu einer definierten Linktiefe vordringen. Sowohl die Linktiefe als auch die Liste der zu crawlenden Domains sind aber beliebig skalierbar. Aktuell crawlen wir im Peak bis zu 3.000 Seiten/Sekunde.

Da wir den Bedarf bzw. den Nutzen für uns selbst deutlich sehen gehen wir stark davon aus, dass wir die öffentliche Datenbank zeitnah noch in größerem Umfang erweitern werden. Dennoch wollten wir lieber etwas kleiner starten und mit immer größeren Datenbeständen überraschen als direkt ein sehr mächtiges Tool anzubieten, das niemanden interessiert ;)

Verfasst: 11.07.2011, 20:35
von Hirnhamster
Finde den Ansatz hier sehr geil: https://www.at-web.de/blog/20110711/lip ... plorer.htm

Denzentrale Crawler, hat was :)

Mir gehts weniger um irgendwelche JS Links sondern darum, Backlinkprofile möglichst vollständig einschätzen zu können. Wenn das nicht geht, dann hätte ich zumindest gern die Sicherheit, dass der Fehler (also fehlende Links) über alle Seiten in etwa gleich verteilt sind. Bringt mir ja nix, wenn ich bei meiner Seite alle Links geliefert bekomme, bei meinem Konkurrenten aber nichtmal die Hälfte. Komme halt drauf, weil bei euch steht "Datenbasis umfasst 350 mio Elemente" und der OSE kennt gute 9 Billionen Links.

Aber generell find ich die Idee super, vor allem wenn ihr das kostenlos zur Verfügung stellen wollt ;)

Verfasst: 11.07.2011, 20:58
von SEOkicks
Ein wesentlicher Unterscheid zum OSE ist sicher das wir uns derzeit auf deutschsprachige Websites konzentrieren und die Datenbasis mit 500.000 Domains vergleichsweise klein ist. Außerdem spielt für uns Aktualität eine sehr große Rolle. So sind nicht nur die Auswertungen nach Datum sortiert (man sieht also jeden Tag auf den ersten Blick welche neuen Links eine Domain erhalten hat), sondern alte und nicht mehr existierende Links werden zeitnah wieder gelöscht.

Hinzu kommt noch, dass wir aktuell ausrangierte Hardware verwenden und hier noch um Dimensionen mehr Möglichkeiten bestehen. Wenn das Konzept als solches greift, dann ist eine Vervielfachung des Datenbestandes also schnell erledigt. Aktuell werden aber z.B. bereits ziemlich lückenlos alle Backlinks gefunden, die von Domains aus dem DMOZ (World/Deutsch) stammen.

Verfasst: 12.07.2011, 13:35
von UweT
Tolle Idee - ich denke jedoch nicht, dass sich das durchsetzen wird, weil

a) der datenbestand, im vergleich zu den bestehenden quellen, für die meisten nicht ausreichend ist
b) das internetz keine regionalen grenzen kennt
c) die infrastruktur, um x terrabyte an daten vorzuhalten und zu aktualisieren nicht nur geld sondern auch eine ganze menge an know how bedarf...

Wirklich hilfreich wäre ein Tool, welches einem die Backlinks ausgibt die tatsächlich eine signifikante Auswirkung auf das Ranking besitzen.

Verfasst: 18.07.2011, 09:42
von SEOkicks
Offenbar haben wir den Bedarf an möglichst vielen Daten unterschätzt. Bei unserer eigenen Nutzung im Vorfeld war uns vor allem wichtig zeitnah zu sehen, welche Wettbewerber von welchen Seiten neue Links erhalten haben. Es hat sich relativ schnell bestätigt, dass es genau bei diesen Seiten im Vergleich leichter ist ebenfalls Links zu erhalten da die Betreiber gerade ohnehin dabei sind relevante Verlinkungen zu ergänzen oder aber einem Linktausch/-kauf nicht abgeneigt sind.

Der OSE findet für www.abakus-internet-marketing.de derzeit Links von 894 Domains, SEOkicks zeigt Links von 359 Domains. Dieses Verhältnis scheint bei sehr vielen Domains konstant zu sein. Über 33% Linkausbeute im Testbetrieb auf Althardware stimmt uns schon sehr positiv.

Dennoch nehmen wir Euer Feedback natürlich dankend entgegen und werden die Crawlingläufe ab heute um die 1 Mio. meistverlinkten Domains im deutschsprachigen Raum erweitern. Bereits ab morgen wird die Zahl der gefundenen Backlinks also deutlich ansteigen und wir sind sehr gespannt wie sich dies auf die Linkausbeute insgesamt auswirkt.

Außerdem gab es heute eine kleine Anpassung im Frontend: Die Sortierung berücksichtigt nun immer nur den "Erstfund" von Links innerhalb einer Rootdomain. Verlinkt eine Domain also z.B. im Footer jeder Seite auf die Zieldomain, dann erscheint sie nicht mehr mit jeder gefundenen neuen Seite wieder ganz oben. Es werden nun also nur noch wirklich "frische" Links am Anfang der Trefferliste gezeigt.

Verfasst: 29.08.2011, 10:04
von SEOkicks
Nachdem mehrfach der Wunsch nach einem größeren Datenbestand aufgekommen ist haben wir unser Testsystem nun nochmals deutlich optimiert und die Datenbasis von ~350 Mio Datensätzen auf über 1 Mrd erweitert.

Alle Linkdaten lassen sich dabei unter https://www.seokicks.de vollständig einsehen und schon jetzt ist die Datenbasis für Domains im deutschsprachigen Raum bei unseren Stichproben größer als z.B. beim Open Site Explorer. Dazu einigen Beispiele.

www.abakus-internet-marketing.de
OSE: 8.141 Links von 674 Domains
SEOkicks: 11.463 Links von 811 Domains

www.spiegel.de
OSE: 353k Links von 14k Domains
SEOkicks: 580k Links von 27k Domains

Das wir selbst mit unserer alten Testhardware schon mehr Daten als der OSE generieren können hat uns tatsächlich selbst ein wenig überrascht. Den besonderen Nutzen sehen wir aber weiterhin nicht in der reinen Quantität sondern in der Art der Auswertung. So sieht man auf Anhieb für jede Domain welche Backlinks neu hinzugekommen sind und kann z.B. auf Linkwachstum bei Wettbewerbern passend reagieren.

Wir würden uns freuen auch Dritten mit unserem Tool bei der täglichen Arbeit weiterhelfen zu können und bitten im Gegenzug um das eine oder andere konstruktive Feedback - gerne auch kritisch ;)

Verfasst: 29.08.2011, 11:22
von Hirnhamster
Wie "frisch" sind die Daten? existieren denn auch alle Links noch, die ihr so findet bzw. in welchem Intervall re-crawlt ihr eine Seite?

/e
Download via csv oder so wäre noch sehr nice. Kann man auch die genauen BLs irgendwie sehen? Eventuell sogar sortiert nach incoming Links, damit man die Stärke abschätzen kan?

Verfasst: 29.08.2011, 11:25
von SEOkicks
Die Daten stammen alle aus dem letzten Spiderlauf, also ca. aus den letzten 2 Wochen. Links aus vorherigen Läufen die nicht mehr gefunden wurden, wurden gelöscht.

Edit: Ob wir einen CSV-Export anbieten hängt derzeit noch von der Nachfrage ab (da wir selbst ihn nicht benötigen). Falls das Tool genutzt wird, wird es den CSV-Export sehr sicher auch geben. Was genau meinst Du mit "genaue Backlinks"? Viele Daten gibt es schon wenn Du in der Trefferliste neben der Domain auf "Details" klickst.

Verfasst: 29.08.2011, 12:27
von Hirnhamster
Ah okay, das mit den Details hatte ich gar nicht wahrgenommen. Was mir fehlt ist eine Priorisierung, also zum Beispiel an Hand des PRs oder eingehender Links oder so. Ähnlich wie bei https://rapid.searchmetrics.com/en/seo- ... ty,14.html

Verfasst: 29.08.2011, 13:07
von SEOkicks
Die Anzeige von PR und/oder einem internen Index zur Linkstärke ziehen wir bei größerem Interesse ggf. auch noch nach.

Verfasst: 29.08.2011, 16:38
von Kostja
SEOkicks hat geschrieben:Die Anzeige von PR und/oder einem internen Index zur Linkstärke ziehen wir bei größerem Interesse ggf. auch noch nach.
Das Interesse wird größer, wenn die Datenbasis besser/größer wird. Vielleicht solltet ihr da ansetzen?? :) Ansonsten cooles (kostenloses) Tool.