Seite 1 von 1

Semantisches Web und Google

Verfasst: 18.02.2004, 10:27
von KeepCool
Hallo Forum,

Skifahren war super, der Stress danach (leider) nicht mehr; freue mich wieder etwas mehr Zeit zu haben...

GOOGLE ist dabei semantische Elemente zu implementieren. Das ist FAKT: bei der simplen Eingabe von (z.B. betreffend KW Hotel) im Suchfenster ~hotel -hotel, erscheinen Ergebnisse wie "Accomodation", "Lodging", "INN", also alles Begriffe die in einem engen logischen Zusammenhang mit "Hotel" stehen. Beim Begriff "SEO" (~seo -seo) wird der Zusammenhang noch deutlicher: man sieht dann "Search Engine Optimization", "Ranking", etc.

Die dahinterstehende Algorhythmik beruht prinzipiell auf zwei Techniken:
1. LSI-ähnliche Implementierung
2. Logical Ontology

Nach dem Kauf von AppliedSemantics (CIRCA) -ich hatte CIRCA und HILLTOP sehr früh angeführt, was damals noch keiner glauben wollte- hat GOOGLE das Stemming eingeführt was rudimentär auf "Wortstammlogik" (ein bisschen LSI) beruht.

Beispiel aktuelle Semantik (aktueller etwas fortgeschrittener Stand bei GOOGLE) anhand vom KW -Kühlschrank-:

1. kühlschrank
2. kühlschränke
2. kühlraum
4. kühleinrichtung
5. kühlvorrichtung
etc., etc.

der gemeinsame Wortstamm ist "kühl".

Konkrete Bedeutung:

GOOGLE erkennt auf verschieden Sites einer Domain das vorkommen des Wortstammes und ordnet diese Domain/Sites diesem -aus dem Wortstamm hergeleiteten- thematischen Bereich zu.

SO ist es beispielsweise erklärlich, das Seiten bei verschiedenen Suchbegriffen vorne sind, auf denen das KW nur in "homöpathischer" Verdünnung vorkommt: diese einzelne Seite gehört zu einem thematisch relevanten Cluster (aus GOOGLEs Sicht) - dieser "Wortstamm" kommt noch auf vielen anderen Seiten der indizierten Domain vor.

Logical Ontology:

Nehmen wir einen Begriffscluster aus dem Finanzbereich:

1. Bundesobligationen
2. Fonds
3. Staatsanleihen
4. Optionen
etc., etc.

Mit dem "einfachen" LSI-ähnlichen Prinzip (nach Wortstamm) wäre hier eine thematische Bewertung unmöglich, obwohl die Begriffe alle eindeutig im Bereich Finanzmärkte hingehören.
Hier kommen "Ontological Dictionaries" zum Tragen, die diese Begriffe sprachtechnisch diesem Themenbereich zuordnen. Hierfür ist "SEO" ein relativ gutes Beispiel.

Wir haben uns von einer Deutschen Uni einen Dictionary für den Bereich Medizin besorgt und sind gerade am testen :-).

Die Zeiten der Beurteilung einer Seite nach den Steinzeitprinzipien (KW-Dichte, KW-Proximity, PR, LP, etc.) ist endgültig vorbei: dieses Faktoren werden zweifelsfrei weiterhin eine Rolle spielen, ABER nicht mehr die Hauptrolle.

<Eigenwerbung unentgeltlich>
Ich werde bezüglich Websemantics und Ontologie innerhalb der nächsten 4 Wochen an der Fraunhofer Gesellschaft in St. Augustin vor führenden wissenschaftlichen und W3C-Vertreter halten und den Termin rechtzeitig bekanntgeben. Wen es interessiert, der ist herzlich willkommen !
</Eigenwerbung unentgeltlich>

Ich werde in den nächsten Tagen Stellung beziehen zu folgenden Punkten:

1. Externe Verlinkungsstrategien (Anzahl + Linktext-Struktur)
2. Interne Verlinkungsstrategien (Anzahl + Linktext-Struktur)

(diese spielen eine deutlich grössere Rolle als zunächst angenommen, hier an dieser Stelle vielen Dank an Seoxx für die Anregung: ohne dies, hätten wir es gar nicht im grossen Rahmen mathematisch ausgewertet)

3. Bekanntheitsfaktor @ GOOGLE (Seit wann sind die Seiten bei G bekannt)

Einen schönen Tag noch,

KeepCool

Verfasst:
von

Re: Semantisches Web und Google

Verfasst: 18.02.2004, 11:06
von Jörg
hallo KeepCool,

zwei (sprachwissenschaftliche) Anmerkungen
KeepCool hat geschrieben:Beispiel aktuelle Semantik (aktueller etwas fortgeschrittener Stand bei GOOGLE) anhand vom KW -Kühlschrank-:

1. kühlschrank
2. kühlschränke
2. kühlraum
4. kühleinrichtung
5. kühlvorrichtung
etc., etc.

der gemeinsame Wortstamm ist "kühl".
ich würde in diesem Zusammenhang (d.h. bei Komposita) nicht von Wortstamm sprechen (auch wenn Google dieses Verfahren als stemming bezeichnet), sondern von Morphem. 'kühl' liegt als Wortstamm vor in: die Kühle oder kühlen (im weitesten Sinne auch in Kälte).

beim 'stemming' handelt es sich (im Gegensatz zur Logical Ontology) m.E. auch weniger um eine semantische, als vielmehr um eine morphologische Technik - die Bedeutung der Morpheme wird hierbei überhaupt nicht erfasst

Verfasst: 18.02.2004, 11:11
von KeepCool
Hi,

Hast natürlich Recht ! DAS passiert immer, wenn man den Mittelweg versucht, zwischen Tiefe und allgemeiner Verständlichkeit.

Wenn Du Interesse UND naturwissenschaftliche Kompetenzen in diesem Bereich mitbringst, schreib mir bitte eine PM.

Always

KeepCool

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 18.02.2004, 11:38
von Jörg
ja, ich hatte bisher auch über solche Ungenauigkeiten hinweggesehen, nach dem Motto, Hauptsache der Sinn wird verstanden, SEOs sind keine Linguisten. Aber wegen dem angekündigten Vortrag hab ich dann doch mal meinen Senf dazu gegeben :)

PM ist unterwegs

Verfasst: 18.02.2004, 11:45
von IT-Knecht
Stimmt, die Synomymsuche über die Tilde ist ja sogar dokumentiert:
https://www.google.com/help/refinesearch.html
Ist das neu?

Ein interessanter Suchbegriff ist übrigens ~Jaguar
Auf Platz 1 "Lynx" (Luchs)
Dann massig "Jarguar" und "Cars".
Auf den ersten 7 Seiten nichts zoologisches.

Ich schliesse daraus, dass die Lynx-Browser-Entwickler mehr von SEO verstehen als die Zoologen. :lol:
Den "Cars"-Spam tue ich mir freiwillig nicht an.

Ein Thesaurus (Synonym-Wörterbuch) ist eine wichtigste Grundlage für semantische Analyse eines Dokumentes, also um zu erkennen ob ein Dokument mit "Jaguar" vom Auto oder vom Haustier handelt.

Grüße,
Martin

Verfasst: 18.02.2004, 12:01
von lala
Das habe ich auch schon festgestellt. Habe es mit dem Begriff "diamanten" probiert. Da kommen Filme etc.

Hier geht es wohl um Kollokationen und linke und rechte Nachbarn. Fange jetzt auch an, mich mehr damit zu beschäftigen. Würde mich über Erfahrungen in diesem Bereich freuen.

Verfasst: 18.02.2004, 12:13
von Seoxx
Hi KeepCool,

vielen dank für die Ausführung zu LSI-ähnliche Implementierung und Logical Ontology.

Es ist eine gute Sache die Thematik mit einfacher Logik + mathematischer Auswertung anzugehen. :wink:

Betrachten wir die oben angesprochen Themen einmal logisch. Was kann Google mit LSI-ähnliche Implementierung und Logical Ontology erreichen und wieweit können Sie damit gehen?

Wenn jemand nach "Kühlschrank" sucht, ist nach wie vor eine Seite die Informationen (kommerzieller Natur oder nicht sei mal dahingestellt) zu "Kühlschrank" liefert bevorzugt zu ranken. Es würde wenig Sinn für Google machen eine Seite mit "Kühleinrichtung" der Kühlschrankseite im Ranking zu bevorzugen. Genau das Selbe gilt bei Logical Ontology. Man muss sich also nun die Frage stellen, wann ist es für Google sinnvoll diese Technologie anzuwenden?

Dazu fallen mir zwei Antworten ein.

1. Suche:
Wenn zu dem Suchbegriff kein eindeutig relevantes Ergebnis ausgegeben werden kann.
Kann ein relevantes Ergebnis ausgegeben werden, macht es wenig Sinn Logical Ontology zu bevorzugen. Ansonsten würde die Relevanz der Ergebnisse auf jeden Fall leiden. Denn wenn ich z.B. speziell nach einem "Penthouse" suche, möchte ich keine normalen "Wohnungen" finden. Auch wenn es thematisch zusammen passt währe es ein Rückschritt in der Relevanz. :wink:

2. Algo:
Um durch den Algo relevante Seiten zu finden, die nicht nur zu dem Keyword, sondern "darüber hinaus" auch Informationen zu dem gesamten Bereich enthalten und Diese somit mit einem besseren Ranking zu versehen.

Somit kann natürlich auch das Wordstemming oder Logical Ontology in Zukunft eine große Rolle im Algo spielen. Denn wenn nun ein Projekt z.B. das Thema Finanzen abhandelt, kann es gut sein das Google dann auf einer Seite nicht nur das Keyword "Finanzen" finden möchte, sondern Wert darauf legt ebenso Fonds, Staatsanleihen etc. zu finden und diese Seite dann somit mit einem besseren Ranking versieht. Sozusagen hat die Seite dann nicht nur eine "Keywordwertigkeit", sondern darüberhinaus noch eine "Keywordbereichswertigkeit". :wink:

Fazit: Ich sehe LSI-ähnliche Implementierung und Logical Ontology nicht überwiegend für die eigentliche Suche. Genau das gesuchte "Keyword" wird meiner Meinung nach weiterhin die größte Wertigkeit in der Suche erfahren, damit Google keinen Rückschritt in der Relevanz des Suchergebnisses macht.
Nur kann es gut sein, dass LSI-ähnliche Implementierung und Logical Ontology in Zukunft in den Algo mit einfließen und somit Seiten, die "über das gesuchte Keyword" hinaus, auch über Begriffe aus Logical Ontology verfügen, mit einem besseren Ranking versehen werden. Das währe für mich logisch. :wink:
-----------------------------------------------------------------------------------------------

Derzeit geht Google aber einen seltsamen Weg. Gezielte Projekte über eine Thematik rutschen in den Filter und eine Seite bunt gemischt zu vielen Themen ist aussen vor (beispiel Kelkoo, Kommerziell ect.). Ob das mal der richtige Weg ist? :-?

Habe ich ein Projekt was nur ein Thema abhandelt, rutsche ich damit derzeit in den Filter, weil die Linkbenennung oft über ein "keyword" läuft.

Beispiel: Bettenseite
Nun hat eine Bettenseite viele Unterseiten zum Thema, die aber natürlich alle irgendwo auch mit Bett zu tun haben. So kommt es, dass eine Unterseite jeweils für Doppelbett, Feldbett, Wasserbett usw. vorhanden ist.
Solche Projekte fallen derzeit in den Filter, da die Linklastigkeit zu stark auf einen Begriff (Bett) fällt. :cry:

In der derzeitigen Linkthematik glaube ich zwar zu wissen was nötig ist um nicht in den Filter zu fallen, die Logik allerdings fehlt mir dabei. Denn normalerweise sollten Seiten die sich mit einer Thematik eingehend beschäftigen eher bevorzugt und sicherlich nicht ausgeblendet werden. :oops:

Meiner Meinung nach geht Google derzeit sehr plump vor um nach links optimierte Seiten auszufiltern. Da ist eine Nachbesserung dringend nötig, sonst werde wahrscheinlich nicht nur ich bald besser platziert sein als mir selber lieb ist. :oops:

Gruß
Frank

Verfasst: 18.02.2004, 14:33
von KeepCool
@Seoxx

Warum GOOGLE das (Semantik) machen sollte ? Wegen erheblich besseren SERPs. Es führt kein weg daran vorbei, dass dies die Zukunft ist. Die Frage INWIEWEIT diese existierenden Technologie BEREITS implementiert sind, kann ich anhand existierender Auswertungen nur bruchstückhaft beantworten: rudimentät wird diese Technologie sicher schon verwendet. Allerdings nicht für alle Begriffe (für viele werden nämlich gar keine Synonyme ausgegeben) und schon mal gar nicht zuerst für den Deutschen Sprachbereich.

Eine andere Auswirkung der AppliedSemantics Technologie ist die Zerlegung von Begriffen in Einzelteilen: z.B. erkennt GOOGLE "Suchmaschinen Optimierung" und "Suchmaschinenoptimierung" als gleichen Begriff.

Die Vervollständigung des Thesaurus wird (insbesondere für den nicht-englischen Sprachbereich) sicherlich noch eine Weile andauern, aber wie gesagt...ohne geht zukünftig nichts mehr.

THEMA LINKS:

Seoxx, Du hattest unheimlich Recht mit Deiner Linktheorie, die uns dazu angeregt hat unseren umfangreichen Datenbestand diesbezüglich zu analysieren. Jetzt nur eines dazu: die Krux an der Anzahl und Linktextstruktur der internen Links ist unbestritten. 84% der "Nirvana-Seiten" -frühere Champions- weisen, neben anderen Merkmalen auch Dieses verstärkt auf. Ist auch logisch: aus GOOGLEs Sicht ist das OnSiteOptimization - mit dem Ziel zu "powern".

Keinerlei Zweifel daran, dass DU es beim nächsten Update nach oben schaffst...ausser G betreibt hier wiedermal "manuelle Algorhythmik".

Always

KeepCool

Verfasst: 18.02.2004, 21:26
von Penti
@Seoxx Gebe Dir voll recht.. Da ist noch einiges im Argen.
Ich handle mit historischen Wertpapiere https://www.pentenrieder.com und war Jahre mit den keys " historische Wertpapiere" unter den ersten 5 gelistet.
Jetzt so um die 50/60.
War scheinbar ein Filter der mich gekickt hat.
Aber wenn du nur mit historischen Wertpapieren handelst kommt der Begriff sehr häufig im content etc. vor.
Und das checkt google nicht richtig.
Bei den keys "historische Wertpapiere USA" bin ich an 1. Stelle.
Scheinbar klappt's mit 3 key Worten noch nicht mit dem Nachbarn (ähh Filter).
Wäre schon eine Nachbesserung nötig.

Gerade bei thematisch "engen" Seiten greift der/die Filter zu stark.

So bin ich gezwungen und bring mehr content, links und alles Mögliche mit rein nur um das ranking zu verbessern.

Alle Händler in diesem Bereich haben dann das gleiche auf ihren HP's oder weiten mit thematisch weniger zugehörigem Material aus.

Nebenbei-- habt wirklich ein starkes und informatives Forum hier.

Viele Grüße an alle und weiter so.
:)