Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
Nein. Der Grund ist ein anderer: Ein Grossteil der Spider, die sonst so durchs Netz ziehen haben keine andere Aufgabe als Content für Adsense-Pseudo-Sumas zu ziehen. Darauf haben halt viele Leute keine Lust.damael hat geschrieben:Wieso sind eigentlich immer alle so scharf darauf alle Bots auszusperren ausser googlebot, msnbot und co.
Damit wir am Schluss ein Internet haben in dem die Mainstream-Kacke den Abfluss verstopft? Damit die grossen noch grösser werden (und grösser und...)? Damit Google am Schluss sagen kann. "Ich bin euer big brother, und ihr habt mich sogar noch lieb."
Das steht ganz oben auf unserer To-Do Liste. Im Moment ist der Robot aber durch. Wenn er das nächste Mal startet, wird er die robots.txt beachten.Da dieser Bot zusätzlich keine robots.txt abfragt, ist das "rude behaviour" und damit unerwünscht.
Was mich jetzt mal interessieren würde... Adsense oder Ähnliches ist ja an und für sich kein Kriterium um eine Suchmaschine von einer Pseudo-Suchmaschine zu unterscheiden. Echte Suchmaschinen finanzieren sich ja auch über Werbung.Ein Grossteil der Spider, die sonst so durchs Netz ziehen haben keine andere Aufgabe als Content für Adsense-Pseudo-Sumas zu ziehen.
Ich scheine Dir in diesem Fall unrecht zu tun. Kein Adsense zu erkennen.WWWeasel hat geschrieben:Was mich jetzt mal interessieren würde... Adsense oder Ähnliches ist ja an und für sich kein Kriterium um eine Suchmaschine von einer Pseudo-Suchmaschine zu unterscheiden. Echte Suchmaschinen finanzieren sich ja auch über Werbung.
Ich scheine Dir in diesem Fall unrecht zu tun. Kein Adsense zu erkennen.
Overture war mir nicht bekannt. Scheint eine PPC-Sache zu sein, oder?
Wir cachen ja nicht die ganzen Seiten. Es werden nur die URL, Überschrift, Snippet, Keywords und einige Ranking-Daten gespeichert. Und da reichen etwas über 4kb pro Seite locker aus. Zumal die Keywords ja auch nicht alle als Volltext gespeichert werden müssen. Da reichen pro Keyword 4 Bytes mit einer Indexnummer in die Keyword-Datenbank.Irgendwie kann ich mir die Zahlen nicht vorstellen. 11,8 Mio. Seiten auf 50 GB. Entweder mein Taschenrechner ist kaputt oder ich habe einen brutalen Denkfehler. Hmm, vieviel KB bleiben da pro Seite?
Sollte er eigentlich nur bei der Homepage machen. Also aus "www.domain.de" wird "www.domain.de/". Oder passiert das auch bei anderen URLs? Falls ja, dann muss ich nochmal in den Code schauen. Das sollte nämlich nicht passieren. Wäre dann ein Bug den es zu beseitigen gilt.Dein Bot vervollständigt Links selbstständig, sprich er hängt ein '/' an
Jau. Da muss ich wohl mal einen Blick in die Tiefen des Sourcecodes werfen.Da guckst du: https://wwweasel.de/s/?q=site%3Amyengines.in&p=10
Plus die Keyword-Datenbank, in der die Verbindung von ID zu ausgeschriebenem Keyword hergestellt wird. Sind bei den 11,8 Mio. Seiten rund 400mb. Im Endeffekt wird aber eine Menge Platz eingespart.Pro Keyword 4 Bytes?
War ich schon besser, habe ich aber im Mülleimer der Geschichte runtergespült.Andererseits denke ich auch, dass wir einen deutlich höheren technischen Aufwand treiben als die meisten hier. Oder hat sonst noch wer einen 50gb großen Suchindex aus 11,8 Mio. Seiten?
Eine ernstzunehmende Suchmaschine entsteht nicht durch die Datenmenge, sondern durch ein intelligentes Ranking. Und das scheint ja nun nicht vorhanden zu sein....ab welcher Datenmenge würdet ihr von einer ernst zu nehmenden Suchmaschine reden?