WWWeasel Robot v1.00 (http://wwweasel.de)

Beitrag von **Ste** » 25.07.2005, 11:56

Weil googel und Co keine Inhalte klauen.

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **damael** » 25.07.2005, 12:55

Überseh ich etwas? Sieht doch wie eine ganz normale Suchmachine aus. Ausser dass er etwas komisch weiterleitet über s.exe?url=http...

Sehe keinen Unterschied zu google so auf den ersten Blick.

Beitrag von **SloMo** » 25.07.2005, 13:03

damael hat geschrieben:Sieht doch wie eine ganz normale Suchmachine aus. Ausser dass er etwas komisch weiterleitet über s.exe?url=http...

Etwas komisch mit 302... sollte wohl eine Hijack-Maschine werden?

von **Anzeige von ABAKUS** »

Beitrag von **Chris2005** » 25.07.2005, 15:26

damael hat geschrieben:Wieso sind eigentlich immer alle so scharf darauf alle Bots auszusperren ausser googlebot, msnbot und co.

Damit wir am Schluss ein Internet haben in dem die Mainstream-Kacke den Abfluss verstopft? Damit die grossen noch grösser werden (und grösser und...)? Damit Google am Schluss sagen kann. "Ich bin euer big brother, und ihr habt mich sogar noch lieb."

Nein. Der Grund ist ein anderer: Ein Grossteil der Spider, die sonst so durchs Netz ziehen haben keine andere Aufgabe als Content für Adsense-Pseudo-Sumas zu ziehen. Darauf haben halt viele Leute keine Lust.

Da dieser Bot zusätzlich keine robots.txt abfragt, ist das "rude behaviour" und damit unerwünscht.

Beitrag von **WWWeasel** » 25.07.2005, 15:54

Da dieser Bot zusätzlich keine robots.txt abfragt, ist das "rude behaviour" und damit unerwünscht.

Das steht ganz oben auf unserer To-Do Liste. Im Moment ist der Robot aber durch. Wenn er das nächste Mal startet, wird er die robots.txt beachten.

Ein Grossteil der Spider, die sonst so durchs Netz ziehen haben keine andere Aufgabe als Content für Adsense-Pseudo-Sumas zu ziehen.

Was mich jetzt mal interessieren würde... Adsense oder Ähnliches ist ja an und für sich kein Kriterium um eine Suchmaschine von einer Pseudo-Suchmaschine zu unterscheiden. Echte Suchmaschinen finanzieren sich ja auch über Werbung.

Wo fängt also für Dich eine echte Suchmaschine an? Bei welchem Datenbestand (1 Mio. Seiten, 5, 10, 100 Mio, 1 Mrd. ?) oder was wären sonst die Kriterien?

Beitrag von **Chris2005** » 25.07.2005, 16:08

WWWeasel hat geschrieben:Was mich jetzt mal interessieren würde... Adsense oder Ähnliches ist ja an und für sich kein Kriterium um eine Suchmaschine von einer Pseudo-Suchmaschine zu unterscheiden. Echte Suchmaschinen finanzieren sich ja auch über Werbung.

Ich scheine Dir in diesem Fall unrecht zu tun. Kein Adsense zu erkennen.

Adsense-Pseudo-Sumas definieren sich darüber, dass sie content aus dem Netz saugen, diesen content "etwas aufbereiten" um ihn so in die Google-Serps zu bringen. Die Idee dahinter ist die, dass der Nutzer über die Google-Serps auf der Pseudo-Suma landet, natürlich nicht das findet, was er sucht um dann auf die Adsense-Anzeigen zu klicken.

Das Thema ist in diesem Forum relativ delikat, da es einen User gibt, der sobald man konkrete URLs nennt die sofortige Entfernung der URLs fordert. Threads mit URLs überleben in der Regel nicht sehr lange, daher nenne ich jetzt auch keine URLs. Aktive Mitleser im Forum wissen sicherlich wen ich meine.

Gruss
Chris

Beitrag von **Pompom** » 25.07.2005, 16:46

Ich denke, seit den biveroo-Zeiten (einfach mal die Suchfunktion bemühen) hat sich wwweasel selbst disqualifiziert.

Ich scheine Dir in diesem Fall unrecht zu tun. Kein Adsense zu erkennen.

Es gibt ja auch nicht nur adsense, sondern auch overture

Gucke ich mir dann noch die weiteren Produkte biveroo, kezaka und die "Historie" in Zusammenhang mit acoon an, traue ich der Suchmaschinen -ohne Pseudo- derzeit nicht zu sehr viel zu.

Vielleicht täusche ich mich ja...

Beitrag von **Chris2005** » 25.07.2005, 16:55

Ouch!

https://www.biveroo.de/impressum.asp
https://www.wwweasel.de/impressum.asp

https://www.biveroo.de/ zeigt typisches Verhalten für eine Pseudo-Suma: die letzten Suchbegriffe sind als URLs hinterlegt damit auch ja schön viel Content vorhanden ist, der von Google&Co gespidert werden kann.

Man soll ja niemand vorverurteilen, aber die Ähnlichkeiten sind schon beträchtlich...

@Pompom: Overture war mir nicht bekannt. Scheint eine PPC-Sache zu sein, oder?

P.S.: Mehr Lesestoff:

https://www.abakus-internet-marketing.d ... -3645.html

https://www.abakus-internet-marketing.d ... t-647.html

Beitrag von **Pompom** » 25.07.2005, 17:03

Overture war mir nicht bekannt. Scheint eine PPC-Sache zu sein, oder?

???

https://www.content.overture.com/d/?mkt=de

Jetzt willst du mich aber verscheißern, oder ?

Beitrag von **WWWeasel** » 25.07.2005, 18:05

Ich bin mir durchaus bewusst, wie wir momentan zum größten Teil unseren Traffic bekommen, und dass einige hier... ok, die meisten... das nicht gut finden. Aber wie jeder hier müssen wir von irgendwas leben.

Andererseits denke ich auch, dass wir einen deutlich höheren technischen Aufwand treiben als die meisten hier. Oder hat sonst noch wer einen 50gb großen Suchindex aus 11,8 Mio. Seiten?

Aber zurück zu meiner Frage von vorhin: Wo hört für euch "Pseudo" auf und wo fängt "echt" an?

Abgesehen davon dass das Ranking der Ergebnisse natürlich gut sein muss, ab welcher Datenmenge würdet ihr von einer ernst zu nehmenden Suchmaschine reden?

Denn letztendlich möchten wir irgendwann auf die "Suchmaschinenoptimierung" verzichten und einfach nur noch Suchmaschine sein.

Beitrag von **Kristian** » 25.07.2005, 18:49

Hallo

@WWWeasel
Irgendwie kann ich mir die Zahlen nicht vorstellen. 11,8 Mio. Seiten auf 50 GB. Entweder mein Taschenrechner ist kaputt oder ich habe einen brutalen Denkfehler. Hmm, vieviel KB bleiben da pro Seite?

Dein Bot vervollständigt Links selbstständig, sprich er hängt ein '/' an, wenn es nötig scheint.
Der Grundgedanke ist verständlich, da ist auch nichts gegen zu sagen, nur in der Praxis ist es numal so, daß du Ergebnisse erhälst, die so nicht wirklich existent sind. Das solltest du nochmal überdenken, zumal die Situationskomik des fehlenden Slash in den aktuellen Apache nicht mehr existiert.

Gruß Kristian

Beitrag von **WWWeasel** » 25.07.2005, 18:57

Irgendwie kann ich mir die Zahlen nicht vorstellen. 11,8 Mio. Seiten auf 50 GB. Entweder mein Taschenrechner ist kaputt oder ich habe einen brutalen Denkfehler. Hmm, vieviel KB bleiben da pro Seite?

Wir cachen ja nicht die ganzen Seiten. Es werden nur die URL, Überschrift, Snippet, Keywords und einige Ranking-Daten gespeichert. Und da reichen etwas über 4kb pro Seite locker aus. Zumal die Keywords ja auch nicht alle als Volltext gespeichert werden müssen. Da reichen pro Keyword 4 Bytes mit einer Indexnummer in die Keyword-Datenbank.

Dein Bot vervollständigt Links selbstständig, sprich er hängt ein '/' an

Sollte er eigentlich nur bei der Homepage machen. Also aus "www.domain.de" wird "www.domain.de/". Oder passiert das auch bei anderen URLs? Falls ja, dann muss ich nochmal in den Code schauen. Das sollte nämlich nicht passieren. Wäre dann ein Bug den es zu beseitigen gilt.

Beitrag von **Kristian** » 25.07.2005, 19:09

Hallo
Da guckst du:
https://wwweasel.de/s/?q=site%3Amyengines.in&p=10
Oder sind die Ergebnisse nicht von dir?

Pro Keyword 4 Bytes? Ich glaube ich habe Stoff über den ich nachdenken will.

Gruß Kristian

Beitrag von **WWWeasel** » 25.07.2005, 19:34

Da guckst du: https://wwweasel.de/s/?q=site%3Amyengines.in&p=10

Jau. Da muss ich wohl mal einen Blick in die Tiefen des Sourcecodes werfen.

Pro Keyword 4 Bytes?

Plus die Keyword-Datenbank, in der die Verbindung von ID zu ausgeschriebenem Keyword hergestellt wird. Sind bei den 11,8 Mio. Seiten rund 400mb. Im Endeffekt wird aber eine Menge Platz eingespart.

Beitrag von **Pompom** » 25.07.2005, 19:37

Andererseits denke ich auch, dass wir einen deutlich höheren technischen Aufwand treiben als die meisten hier. Oder hat sonst noch wer einen 50gb großen Suchindex aus 11,8 Mio. Seiten?

War ich schon besser, habe ich aber im Mülleimer der Geschichte runtergespült.

...ab welcher Datenmenge würdet ihr von einer ernst zu nehmenden Suchmaschine reden?

Eine ernstzunehmende Suchmaschine entsteht nicht durch die Datenmenge, sondern durch ein intelligentes Ranking. Und das scheint ja nun nicht vorhanden zu sein.