Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Wie identifiziert google zusammengesetzte Woerter?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
rummyeurope
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 06.10.2008, 22:03

Beitrag von rummyeurope » 06.10.2008, 22:17

Hi,

ich bin zwar noch neu hier, habe aber trotzdem keine Antwort bei google oder hier im Forum gefunden.

Meine Frage lautet: Wie identifiziert google eigentlich einzelne (Key)Woerter wenn diese zusammengeschrieben sind?

Beispiel: onlinetexasholdem - woran erkennt google, dass hier die 3 Woerter "online", "texas" und "holdem" vorhanden sind?

Denkbar waere ja auch, dass z.B. "line" oder "as" oder "hold" von google gelesen werden wuerde, oder? Wenn nein, warum ist dies so?

Fuer den Fall, dass jemand antworten sollte "Naja, es werden einfach die aufeinanderfolgenden Buchstaben verglichen" dann wuerde dies ja bedeuten, dass onlinetexasholdem fuer alle diese Woerter gefunden werden wuerde: on, online, line, net, tex, texas, as, ash, old, hold, em - oder?

Bin mal auf Eure Antworten gespannt und freue mich auf Rueckmeldungen.

Besten Dank!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


nerd
PostRank 10
PostRank 10
Beiträge: 4023
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 07.10.2008, 01:55

als anhaltspunkt kann man den restlichen text auf der seite untersuchen und feststellen welche woerter dort vorkommen. "ash" und "old" kommt dort wohl nicht vor, und die woerter wie "on, em, as" werden als stopwords bezeichen und koennen beim ranking und bei der auswertung ignoriert werden - keiner sucht nach "the", "i", "they" alleine. frueher stand bei google auch da "folgende woerter wurden bei der suche ausgelassen" oder so aehnlich, mittlerweile geht das aber -> Results 1 - 10 of about 15,800,000,000 for "the".

pr_sniper
PostRank 9
PostRank 9
Beiträge: 1766
Registriert: 07.02.2006, 19:21

Beitrag von pr_sniper » 07.10.2008, 06:04

:D Meine Erfahrung: das muss jeder für sich selbst nach seinen ganz konkreten Keywords bzw. Kombis prüfen, denn Google erkennt das nur manchmal. Beispiele hinken also, wie immer.

Möchte ich als Webmaster mit meinen Keywords erkannt werden oder andersherum, möchte ich als User bestimmte Kombinationen finden, ist die gelernte Rechtschreibung immer günstig.

Die Beispielsuppe aus mehreren, zum Teil sogar unnützen Wörtern, ist kindisch, allerdings wieder mal "SEO"- typisch :lol:

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 07.10.2008, 08:46

"onlinetexasholdem" ...

gib das doch bei google ein, da siehst du schon, wie sie es identifizieren, diese kombination kommt 800.000 mal vor (gut, mit leerstellen, aber, so what)

"line as hold" dagegen kommt ganze 4 (vier!) mal vor, ausserdem bleiben jetzt die schnipsel "on", "tex" und "em" übrig, die z.T. gleich gar nichts bedeuten (der bot schleppt 'n diktionär mit sich rum und weiss, dass z.B. "em" gar nichts ist :lol:)

was sollen sie also annehmen was "onlinetexasholdem" bedeutet? eher das erste (800.000) oder das zweite (4)? die häufigkeit auf anderen seiten, die sagt es ihnen letztlich, was sie da anzeigen müssen.
Bilduzie - [url=httpss://plus.google.com/+HerbertSulzer/about]Google Official Bionic Top Contributor on Google Webmaster Central[/url]

Hasenhuf
PostRank 9
PostRank 9
Beiträge: 2840
Registriert: 26.12.2005, 22:22

Beitrag von Hasenhuf » 07.10.2008, 11:27

rummyeurope hat geschrieben:Fuer den Fall, dass jemand antworten sollte "Naja, es werden einfach die aufeinanderfolgenden Buchstaben verglichen" dann wuerde dies ja bedeuten, dass onlinetexasholdem fuer alle diese Woerter gefunden werden wuerde: on, online, line, net, tex, texas, as, ash, old, hold, em - oder?
Nicht unbedingt.

Es könnte sein, google verwendet ein Wörterbuch. dann wird net nicht "gefunden" weil onli bzw. li (noch) kein Wort ist und danach also nicht mit einem neuen Wortanfang zu rechnen ist. Die anderen Wörter könnten aber gefunden werden. Das Wörterbuch könnte für diese Anwendung aber reduziert sein.

Danach könnte google die Suchergebnisse für alle gefundenen Wörter wichten. Nicht zuletzt wahrscheinlich auch noch danach filtern, ob die Wörter getrennt unmittelbar und in der richtigen Reihenfolge aufeinander folgend vorkommen (anders als bei luzies Test "line as hold").

Soccout
PostRank 4
PostRank 4
Beiträge: 158
Registriert: 17.05.2008, 08:09
Wohnort: Frankfurt, Deutschland

Beitrag von Soccout » 07.10.2008, 11:34

Ich verachte die Rechtschreibung da manchmal :D

Aus Rätseltipps wird Rätsel Tipps!^^

ConCar
PostRank 3
PostRank 3
Beiträge: 72
Registriert: 01.10.2008, 18:34

Beitrag von ConCar » 07.10.2008, 11:40

Google könnte aber auch schauen was die User gerne so in das Suchfeld eintippen, dies dann statistisch auswerten und dann nach Wörterbuch-Korrelationen suchen...

Das muß ja nicht gleich Live-Online passieren, man kann dies ja über Nacht durchlaufen lassen und daraus dann später sein eigenes Wörterbuch erstellen...

ConCar

nerd
PostRank 10
PostRank 10
Beiträge: 4023
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 08.10.2008, 01:00

Hasenhuf hat geschrieben:Es könnte sein, google verwendet ein Wörterbuch. dann wird net nicht "gefunden" weil onli bzw. li (noch) kein Wort ist und danach also nicht mit einem neuen Wortanfang zu rechnen ist. Die anderen Wörter könnten aber gefunden werden. Das Wörterbuch könnte für diese Anwendung aber reduziert sein.
nein - woerterbuecher sind nie aktuell. wenn irgendwo ein neues produkt auftaucht (ps3, iphone etc.) dann steht das noch nicht in deinem woerterbuch, und trotzdem wird es als keyword erkannt.

google kann leicht selbst ein eigenes "woerterbuch" aus allen indizierten seiten erstellen, auch wenn darin dann isbn-nummern, telefon nummern, emails und andere begriffe die nicht unbedingt woerter sind mit vorkommen.

wenn du dich mit php und mysql auskennst dann versuch mal ne eigene kleine "suchmaschine" fuer dein cms zu schreiben, da lernt man ne menge worauf man achten muss, was geht und was nicht geht.

stichwort fuer weiterfuehrende suche waere hier "pre-index". dh. du nimmst erstellst einen suchindex an welchem du die suchabfragen durchfuehrst (ist schneller und praktischer als mit "where text like '%keyword%'" rumzugurken). dh du brauchst mindestens 2 tables:

tbl.word
----------
id
strword

tbl.preindex
--------------
page_id
word_id

und kannst dann deine suche auf tbl.word loslassen, einen join ueber preindex.page_id auf die (gecachte) seite machen. ist natuerlich noch ein bischen komplizierter als das, aber wenn mans erstmal am laufen hat und ein paar daten eingelesen hat recht interressant was man damit alles machen kann. so eine funktion wie "similar pages" ist dann auch recht einfach, und spam laesst sich auch relativ leicht erkennen wenn man die wortstatistiken mit mit referenzseiten vergleicht 8)

babasave
PostRank 6
PostRank 6
Beiträge: 370
Registriert: 07.11.2005, 09:57
Wohnort: München

Beitrag von babasave » 08.10.2008, 07:33

Man nennt diese Algos stemming Algorithmen

https://de.wikipedia.org/wiki/Stemming

~baba

Hasenhuf
PostRank 9
PostRank 9
Beiträge: 2840
Registriert: 26.12.2005, 22:22

Beitrag von Hasenhuf » 08.10.2008, 08:37

nerd hat geschrieben:
Hasenhuf hat geschrieben:Es könnte sein, google verwendet ein Wörterbuch. dann wird net nicht "gefunden" weil onli bzw. li (noch) kein Wort ist und danach also nicht mit einem neuen Wortanfang zu rechnen ist. Die anderen Wörter könnten aber gefunden werden. Das Wörterbuch könnte für diese Anwendung aber reduziert sein.
nein - woerterbuecher sind nie aktuell. wenn irgendwo ein neues produkt auftaucht (ps3, iphone etc.) dann steht das noch nicht in deinem woerterbuch, und trotzdem wird es als keyword erkannt.
Als keyword aber nicht als Teil eines zusammengesetzten Wortes. Die Erkennung von Zusammengesetzten Wörtern ist auch (noch) nicht aktuell, was aber auch anderer Gründe haben kann.
nerd hat geschrieben:google kann leicht selbst ein eigenes "woerterbuch" aus allen indizierten seiten erstellen,
Klar, ich habe das "Wörterbuch" auch nicht weiter spezifiziert.

Ich denke Du hast einen falschen Eindruck von dem was ich meine. Ich denke ich habe mich mit komplizierteren Dingen als mit einer Suchmaschine(-nsuche) beschäftigt, was nicht heißen muß, mit schwierigeren Dingen. Aus diesem Grund halte ich ConCars Vermutung auch für unzutreffend, ein Index möglicher zusammengeschriebener Wörter ist unpraktikabel. Ein wordtable funktioniert dagegen relativ gut ist aber auch nur eine Krücke.

rummyeurope
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 06.10.2008, 22:03

Beitrag von rummyeurope » 09.10.2008, 19:38

Hallo everybody!

Also erstmal vielen Dank fuer die Hinweise. Wir Ihr meiner Frage sicherlich entnehmen konntet, bin ich neu auf dem Gebiet - und ich kenne mich auch (noch) nicht mit sql aus.

Ich arbeite beim weltweit groessten Affiliatenetzwerk fuer Online Poker und Casinos und wollte eigentlich mein dort kummuliertes Wissen nutzen um es "auf der anderen Seite des Verhandlungstiches" - sprich als Affiliate - umzusetzen. Fuer den Fall, dass jemand von Euch uebrigens an monstroesen CPAs oder lebenslangen Umsatzbeteiligungen hat, kann sich gerne bei mir per PM melden. Dann sehen wir, was sich machen laesst;)

Nochmals besten Dabnk und beste Gruesse!

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag