ABAKUS

Verfasst: **31.05.2008, 05:18**

Hallo SEOs, Kämpfer um die Wörter

vor 2 oder 3 Wochen hatte ich eine Idee dieses "meinten sie" nachzubauen
Gestern habe ich mal ein Wörterbuch aufgebaut(gefült)

Die Wörter aus meiner AffiliateShopSuchfunktion als Datenbasis

837.562 Datenzeilen (=Wörter, naja, maches wind auch vertipper oder es fehlt ein Leerzeichen ... muß noch gefiltert, bearbeitet werden)

word_o = Orginal
word_abc = enthaltene Chars ORDER BY alpha (ermittelt aus word_alpha)
word_alpha = dateinameversion = ü|ue ...

Beispiel

Code: Alles auswählen

word_o       	word_abc  	word_alpha

Wörterspiel  	eiloprstw  	woerterspiel
Wörterspiele  	eiloprstw  	woerterspiele

Wörterwald  	adelortw  	woerterwald

kleine QuizeQuestion zum WeekEnde

welches ······· word_abc LIKE 'z%'
bringt die meisten Datenzeilen?
welcher Buchstabe bringt Platz 2, 3, 4, 5

Als ich Heute morgen einen "LIKE 'wörter%'" machte und dann auch WörterWald fand ( www.ZmudaWEB.de soll zukünftig diese Thema haben)
und dann den Inhalt von word_abc sah ..... hm, Philosophisch .... ein Ort für Wörter wo sie geAdelt werden ... Wälder gehören, oder gehörten früher, doch dem Adel ....

Ich poste hier im offTopic = FunBB

aber, spaß beiseite

Das ganze soll mal ein künstlich intelligentes System werden .... nicht lernbassiert, sondern per definierter Regeln
Diese Regeln sind (sollen sein) Datensätze die Wörter in verbindung setzen

Löffel ···· =Objekt=Hauptwort
Schuh ···· =Objekt=Hauptwort
Schuhe ···· Mehrzahl@Schuhe

SchuhLöffel ···· multiObjekt ( zusammensetzung von mehreren Okjekten)
Schuhputzer ···· subObjekt ( Objekterweiterung .... )
im Gegensatz zum "Löffel" gibt es keinen "Putzer" ... alleinstehend

lakieren ····· =tätigkeit
lakiert ····· =behandlung(tätigkeit wird, oder wurde, ausgeführt bzw angewendet)

dann gibt es da noch die Dinge wie
Kauf
kaufen(verkaufen)
gekauft(verkauft)
Hauptwort jetzt und in Vergangenheit

Meine Welt sind die Zahlen, die Mathematik .... mit Rechschreibung steh ich auf Kriegsfuß
hat jemand Lußt da mitzuarbeiten, mir zu sagen was für abwandlungen es so gibt (siehe "Kauf" + Zukunft = "werde kaufen" ... andere Zukunft "werde gekauft haben"= Zukunft die noch nicht geschehen ist ... )

Armreif
Armreife
Armreifen
Armreifens
Armreifes
Armreifs

und die Dinge mit "Schuh" und "Schuhe" ... mehrzahlVorm ... bei "Löffel" bleibt das stabil ... Artikelzuordnung
der Schuh
die Schuhe
der Löffel
die Löffel (nun ist die Mehrzahl erkennbar)
das Auto
die Autos

Regeln für Füllzeichen bei multiObjektWorten
Wasserstandsanzeige
Bei suche nach "Wasserstands" zeigt G "Wasserstand"Ergebnisse
Bei suche nach "WasserstandAnzeige" fragt G meintenSie "Wasserstandsanzeige"

noch ein schönes Wochenende ....

Verfasst: **31.05.2008, 09:14**

Hallo,

habe das Ganze jetzt mal schnell überflogen und muss wirklich sagen, ich verstehe nur Bahnhof

Grüße

Gretus

Verfasst: **31.05.2008, 09:26**

Ohne lang zu grübeln, was du geraucht hast:
"Meinten Sie" könnte sowas wie ein Thesaurus sein.
Vielleicht könnte dann OpenThesaurus hilfreich zur Seite stehen, siehe:
https://www.openthesaurus.de/

Verfasst: **31.05.2008, 12:47**

Pompom hat geschrieben:Ohne lang zu grübeln, was du geraucht hast:
"Meinten Sie" könnte sowas wie ein Thesaurus sein.
Vielleicht könnte dann OpenThesaurus hilfreich zur Seite stehen, siehe:
https://www.openthesaurus.de/

hab ich mir mal angeschaut .... das (die Daten darin) kann ich ja runterladen .... und dann bei mir weiterverarbeiten
erlaubt mir das die LGPL ....
... das L links steht doch für "lees"=wenig ... oder so
= GPL angelehnt an die UNIX ähm BSD-Lizenz
darf genutzt werden, ohne Zwang die Änderungen oder Erzeugisse daraus wieder "open" zu machen

Gretus hat geschrieben:habe das Ganze jetzt mal schnell überflogen und muss wirklich sagen, ich verstehe nur Bahnhof

hab mal angefangen das ein klein wenig anzuCoden
betonung "Anfang" das ist erst der Anfang, da kommt jetzt erstmal ein haufen mißt mit raus .... da müßen noch Rutinen hintergeschaltet werden

Also, suchst du "Armreif"
www.google.com/search?q=Armreif
www.google.com/search?q=Amreif meinten Sie "Armreif"

G hat auch was zu Amreif in seinen Daten, ich nicht
www.chegu.de/armreif.html = 3 STück gefunden
www.chegu.de/amreif.html meinten Sie
»Armreif »Armreife »Arrmreif »Airframe »Efraim »Eierfarm »fairem »Ferrami »firearm »FREIARM »Mifare

das sind jetzt 11 mit einer zimmlich "genauen" suche
danach kommen noch zwei Suchen die "ungenauer" sind

Verfasst: **01.06.2008, 02:38**

800XE hat geschrieben: kleine QuizeQuestion zum WeekEnde

welches ······· word_abc LIKE 'z%'
bringt die meisten Datenzeilen?
welcher Buchstabe bringt Platz 2, 3, 4, 5

Als ich Heute morgen einen "LIKE 'wörter%'" machte und dann auch WörterWald fand ( www.ZmudaWEB.de soll zukünftig diese Thema haben)
und dann den Inhalt von word_abc sah ..... hm, Philosophisch .... ein Ort für Wörter wo sie geAdelt werden ... Wälder gehören, oder gehörten früher, doch dem Adel ....

gibts einen guten grund warum du dazu LIKE verwendest, und nicht SOUNDEX?
abgesehen davon glaube ich das die "meinten sie" funktion bei google anders funktioniert, wurde mal irgendwo am rande in irgend einem interview erwaehnt. jedenfalls stehen die alternativen wohl erst zur verfuegung, nachdem ein user dieses wort zum ersten mal berichtigt hat - dh. google muss diese begriffe erst "lernen". kommen ja auch staendig woerter hinzu die es vorher noch nicht gab und google nicht kennen kann, hauptsaechlich irgendwelche produktnamen wie iphone, ps3 usw.

die selbe funktion koennte z.b. auch benutzt werden weitere relevante ergebnisse zu finden:
user gibt "ZDF" ein, google "ZDF = andere schreibweise fuer "zweites deutsches fernsehen" => finde seiten die "zdf" oder "zweites deutsches fernsehen" enthalten.

schaetz ich mal...

Verfasst: **01.06.2008, 08:46**

nerd hat geschrieben:die selbe funktion koennte z.b. auch benutzt werden weitere relevante ergebnisse zu finden:
user gibt "ZDF" ein, google "ZDF = andere schreibweise fuer "zweites deutsches fernsehen" => finde seiten die "zdf" oder "zweites deutsches fernsehen" enthalten.

das wäre ein Fall für das Wörterbuch = Thesaurus oder sowas .....
ZDF = abkürzung:zweites deutsches Fernsehen
ARD = abkürzung:....
dasErste = Synonym:ARD

a realTalkASK "Bericht über SEO in der ARD" ..... auf ard.de oder daserste.de gibts nichts ... aber auf SW3 oder HR3 oder .... gehört zur ARD, sollte vielleicht gefunden werden

AdWords 2.0 "Bericht über SEO in der ARD"
meinten Sie "mit dem zweiten sieht man besser"?
zdf.de/......../seo.html

nerd hat geschrieben:gibts einen guten grund warum du dazu LIKE verwendest, und nicht SOUNDEX?

erstens weil ich mit dem SoundEx keine Erfahrung habe .... ich zähle da lieber die Buchstaben und rechne mir da irgendwas aus

zweitens
bei der "QuizeQuestion" ging es ja nicht um Wörter undoder deren ähnlichkeit

welches ist der meistverwendete Buchstabe? "e"
bei meiner QuizeQuestion wurden die Buchstaben der Wörter alphaBetisch geordnet, (alphabetisch)kleine Buchstaben links

LIKE z% gibts nur 2 "z" und "zz" ... bestimmt irgendwo was von ZZ-Top
Y=5
X=15
W=10
V=17
U=35
die sind durch den "alphaOrder" untergewichtet ... VolksWagen = enthält "a" = alphaOrder im "LIKE a%"

bei S wirds 3 stellig = 158
M=995
L=1295 .... J nur 318
i dann 6.598 H nur 3ooo G+F je 4ooo

E
der meistverwendete Buchstabe
= 108.098
D = 43ooo
C = 84ooo
B = 72ooo
A = 503.929

And the Winner is ... "A" Platz 2 "E"
A gewinnt weil viele "E" enthaltenden Wörter ja auch DCBoderA enthalten und nicht bei E geLIKEt werden

AB = 135ooo
AC = 121ooo
AD = 64ooo
AE = 140ooo

500-140 = 360 .... und 108+140 = 248
wieviele der Ab AC AD auch E enthalten hab ich jetzt nicht analysiert
nemen wir mal von AB und AC je die hälfte
360 - 70 - 60 = 230 ..... und 248 + 70 + 60 = 378 .... and the WInner is "E"

an alle die mir jetzt mitteilen möchten das ich hier absolut unsinniges tue ....
.... ich stocher (mehroderweniger)planlos in einem Heuhaufen .... in welchem sich eventuell möglicherweise eine Nadel findet (die ich nicht gesucht habe)

Gruß
Andy 800XE Zmuda

Verfasst: **01.06.2008, 11:06**

800XE hat geschrieben: erstens weil ich mit dem SoundEx keine Erfahrung habe .... ich zähle da lieber die Buchstaben und rechne mir da irgendwas aus

https://dev.mysql.com/doc/refman/5.0/en ... on_soundex

ich habe sounddex noch nie benutzt, aber es gibt wohl bei 2 worten die aehnlich klingen einen wert zurueck der nahe beineinander liegt, also "haustuer" und "haustier" solten wohl ungefaehr den selben sounddex haben. eventuell muesste man da den sounddex mit in die therasaurus tabelle schreiben und dann - ja nach toleranz- eine abfrage machen "... OR sounddex(Q)+10 <= sounddex_word AND sounddex(Q)-10 >= sounddex_word" (oder so aehnlich)
wobei Q dein keyword ist und sounddex_word der vorberechnetete sounddex_wert in deinem theasaurus ist. koennte mir vorstellen das die abfrage ne weile dauern wenn du sounddex bei jeder abfrage fuer jedes wort neu brerechnen laesst.

Verfasst: **01.06.2008, 11:39**

ich habe sowas mit soundex gemacht.
Praktischerweise gibts auch noch die PHP Funktion soundex()
Bei einer Suchabfrage (die ansonsten keine Treffer liefert) kannst du dann etwas fragen wie:

Code: Alles auswählen

... SOUNDEX&#40;meinfeld&#41; LIKE \''.soundex&#40;$str&#41;.'\' ...

Interessant für die Sortierung der Ergebnisse ist vielleicht noch
https://php.net/similar_text

Verfasst: **10.06.2008, 10:36**

800XE hat geschrieben:...
Das ganze soll mal ein künstlich intelligentes System werden .... nicht lernbassiert, sondern per definierter Regeln
Diese Regeln sind (sollen sein) Datensätze die Wörter in verbindung setzen
...
hat jemand Lußt da mitzuarbeiten, mir zu sagen was für abwandlungen es so gibt (siehe "Kauf" + Zukunft = "werde kaufen" ... andere Zukunft "werde gekauft haben"= Zukunft die noch nicht geschehen ist ... )

Mit so was in der Art beschäftige ich mich seit einem dreiviertel Jahr (nebenher, nicht die meiste Zeit). Ich kann Dir sagen, Du hast viel vor Dir (und wirst es nur mit Regeln nicht schaffen).

800XE hat geschrieben:Löffel •••• =Objekt=Hauptwort
Schuh •••• =Objekt=Hauptwort
Schuhe •••• Mehrzahl@Schuhe

Wenn Du hochwertige Texte einließt und Satzanfänge erkennst, hast Du eine Chance halbwegs sicher automatisiert Nomen zu ermitteln. Bei Verben und so weiter wird es schwierig bis unmöglich.

800XE hat geschrieben:erstens weil ich mit dem SoundEx keine Erfahrung habe .... ich zähle da lieber die Buchstaben und rechne mir da irgendwas aus

Mein Tipp, vergiß es, die Wortlänge ist praktisch nicht zu gebrauchen, genau wie die Auswertung einzelner Buchstaben, auch Anfangsbuchstaben. So habe ich auch angefangen.

Bei den ganzen Funktionen wie soundex, levenshtein usw. hilft es ein wenig zu lesen, wo die herkommen bzw. wofür sie entwickelt wurden. Was bei Namen noch gut ist (Anfangsbuchstaben) versagt bei normalem Text. Was für die englische Sprache paßt, ist für Deutsch vielleicht nur eine Krücke.
Ganz allgemeine Schwächen gibt es natürlich auch: https://de.wikipedia.org/wiki/Soundex#K ... _Verfahren

Funktionen die auf dem Vergleich von zwei strings beruhen sind für große Datensätze relativ unbrauchbar, da man keine sinnvollen Ergebnisse zu der Ähnlichkeit eines gespeicherten Wortes und einer unbekannten Eingabe abspeichern kann. Solche Funktionen sind sinnvoll, eine anderweitig ermittelte Vorauswahl zu durchforsten.

Verfasst: **10.06.2008, 12:55**

Hasenhuf hat geschrieben:Wenn Du hochwertige Texte einließt und Satzanfänge erkennst, hast Du eine Chance halbwegs sicher automatisiert Nomen zu ermitteln. Bei Verben und so weiter wird es schwierig bis unmöglich.

Gramatik, Ortigrafie, oder wie das ganze Zeug heist ...... na, das ist erst mal noch in weiter Fehrne

jetzte geht es ertmal darum Wörter zu finden

im WMP war da jetzt auch einr der fragte wie Google das machen könnte
https://www.800xe.de/forensenf/welches- ... -gern.html

ich habe soeben mal noch einen Schritt an mein Scriptlein angehängt

Hasenhuf hat geschrieben:
800XE hat geschrieben:erstens weil ich mit dem SoundEx keine Erfahrung habe .... ich zähle da lieber die Buchstaben und rechne mir da irgendwas aus
Mein Tipp, vergiß es, die Wortlänge ist praktisch nicht zu gebrauchen, genau wie die Auswertung einzelner Buchstaben, auch Anfangsbuchstaben. So habe ich auch angefangen.

Achtung .... ich spreche nicht von strlen

strlen( 'Löffel' ) == 6
ich komme auf 5 .... wobei bei mir die "alphaVersion" = loeffel ..... was ja strlen schon 7 wäre
// KOREKTUR
mein loeffel ist nur 4 Buchstaben lang

800XE hat geschrieben:ich zähle da lieber die Buchstaben

ich zähle die existenz ..... die existenz interessiert immer nur 1mal .... was da ist ist das, egal wie oft, will nur wissen ob es da ist

Hasenhuf hat geschrieben:Bei den ganzen Funktionen wie soundex, levenshtein usw. hilft es ein wenig zu lesen, wo die herkommen bzw. wofür sie entwickelt wurden. Was bei Namen noch gut ist (Anfangsbuchstaben) versagt bei normalem Text. Was für die englische Sprache paßt, ist für Deutsch vielleicht nur eine Krücke.
Ganz allgemeine Schwächen gibt es natürlich auch: https://de.wikipedia.org/wiki/Soundex#K ... _Verfahren

hab ich mir jetzt durchgelesen ....
.... die arme Brinay .... oder wie heist die, ise überhaupt, Zicke

ok, gut das ich garnicht ert damit angefangen habe .... absolut unbrauchbar

mein erster Schritt, der macht überhaupt keine Analyse ....
... ich denke es wäre zu viel verlangt von Analyse zu sprechen

Hasenhuf hat geschrieben:Funktionen die auf dem Vergleich von zwei strings beruhen sind für große Datensätze relativ unbrauchbar, da man keine sinnvollen Ergebnisse zu der Ähnlichkeit eines gespeicherten Wortes und einer unbekannten Eingabe abspeichern kann. Solche Funktionen sind sinnvoll, eine anderweitig ermittelte Vorauswahl zu durchforsten.

der erste Scrit ist schon eine Art Stringvergleich .....
.... aber erstmal nicht der String selbst, sondern ein (int) ....
es werden Wörter gesucht die gleichviele Buchtaben enthalten .... Achtung, existens, nicht vorhandensein bestimt die Anzahl der enthaltenden Buchstaben ....
.... AlphaBeht hat 26 Buchstaben ....
der erste Schritt kann niemals ein Wort mit 27, oder mehr, Buchstaben suchen ... den es existieren nur 26

wie oben in Bold schon geschrieben, hab ich noch einen Schritt angehängt
ich nehme die gefunden Wörte aus dem aktuellen Schritt 1 + 2 .... der 3. ist mir zu umfangreich, würde vielleicht dann genommen wenn 1 und 2 nichts lieferten

dann erstmal schauen das Wörter die in 1 und 2 gefunden wurden nur noch 1 mal da sind
orginalSuchwort halbieren und mit den gefundenen matchen ....
... matcht eine der häften komt es durch diesen Filter
www.chegu.de/micosoft.html
Filter 2 waren es 17
Filter 4 sind es noch 10
www.chegu.de/mircrosoft.html
Filter 2 waren es 21
Filter 4 sind es noch 10
www.chegu.de/mircrosoft.html

chegu.de/miiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiircrosoft.html
das kann schlecht matchen ....
Len:53 hLen:26 sleft:miiiiiiiiiiiiiiiiiiiiiiiii sleft:iiiiiiiiiiiiiiiiiircrosoft
Lösung
Char bei Char durchlaufen und alle auf "einstellig" reduzieren
dann wären wir wieder bei /mircrosoft.html = Filter 4 noch 10

dieses Char by Char auch bei den gefundenen ....
... die 10 reduzieren sich auf 8, da einmal mit "oo" und einmal mit "rr" gefunden ....
... entfernt, Routine der doppelWörterlöschen von vor Filter 4 und es sind eben nur noch 8
einmal steht Micro.... komplet doppelt ... und einmal steht dort "mitMico..." ....
.... prüfen ob linker Teil eigenständiges Wort, wenn ja eventuell eliminieren(vielleicht weil Info vorhanden das es nicht als Zusamengesetztes Wort in dieser Vorm existieren darf = Filter "fehlendes leerzeichen entdecken")

und nu bist du wieder dran .....
... bin ich auf einem guten Wege?

Gruß
Andy 800XE Zmuda

Verfasst: **10.06.2008, 13:56**

jetzt mit Filter Nummer 5

ACHTUNG nicht geeigenet für Wörter mit Umlauten ....
.... das ist jetzt aber nur eine temporäre einschränkung
oder würd es doch gehen.... hm, weiss ich jetzt garnicht

Ergebnis für mico....

so, und ich glaube du meinstest zu soundsoviel %

» 000.0759 %4 » IMicrosoft
» 000.0759 %4 » Micrcosoft
» 000.0380 %4 » Microosoft
» 100.0000 %4 » Microsoft
» 001.7844 %4 » MicrosoftMicrosoft
» 000.1139 %4 » Micrrosoft
» 000.1139 %4 » Micrsosoft
» 000.1898 %4 » Mircrosoft
» 000.0380 %4 » mitMicrosoft
» 000.0000 %4 » BRMicrosoft

Seien wir realistisch, versuchen wir das Unmögliche!
Unmöglich für mich wäre .... Rechtschreibung zu lernen ....
... aber ich sehe eine realistische Chance, das ich ein Programm schreibe das in Sachen Rechtschreibung(oder deren korrektur) besser ist als ich

Gruß
Andy 800XE Zmuda

Verfasst: **10.06.2008, 14:17**

800XE hat geschrieben:Gramatik, Ortigrafie, oder wie das ganze Zeug heist ...... na, das ist erst mal noch in weiter Fehrne

jetzte geht es ertmal darum Wörter zu finden

Vorzugsweise richtiggeschriebene Wörter und Wortarten (Hauptwort), dachte ich. Mit Grammatik hat das alles noch nichts zu tun, außer, das man nicht weiß ob ein Wort am Satzanfang eins mit einem Großbuchstaben ist oder nicht.

800XE hat geschrieben:Achtung .... ich spreche nicht von strlen

strlen( 'Löffel' ) == 6
ich komme auf 5 .... wobei bei mir die "alphaVersion" = loeffel ..... was ja strlen schon 7 wäre
// KOREKTUR
mein loeffel ist nur 4 Buchstaben lang

Ich spreche auch nicht von strlen. Das Vorkommen von Buchstaben sagt wenig über die Ähnlichkeit aus. Du gehst mit Wörtern um, als ob diese einem Buchstabenrauschen entspringen würden.

Ich habe dich doch richtig verstanden, Du willst Wörter finden die sich ähnlich schreiben und/oder die ähnliche oder gleiche Bedeutung haben?

800XE hat geschrieben:ich zähle die existenz ..... die existenz interessiert immer nur 1mal .... was da ist ist das, egal wie oft, will nur wissen ob es da ist

Aus Langeweile oder hast Du ein Ziel? Siehst Du Deinen Weg zum Ziel führen?

800XE hat geschrieben:hab ich mir jetzt durchgelesen ....

Auch wenn ich berücksichtige, daß mir damals niemand den Weg gezeigt hat, glaube ich, Du warst zu schnell.

800XE hat geschrieben:ok, gut das ich garnicht ert damit angefangen habe .... absolut unbrauchbar

Besser als Buchstaben zählen ist soundex dennoch und außerdem eine Anregung. Es gibt auch noch mehr, Metaphone z.B. wovon es glaube ich auch an die deutsche Sprache angepaßte Regeln gibt.

800XE hat geschrieben:der erste Scrit ist schon eine Art Stringvergleich .....
.... aber erstmal nicht der String selbst, sondern ein (int) ....
es werden Wörter gesucht die gleichviele Buchtaben enthalten .... Achtung, existens, nicht vorhandensein bestimt die Anzahl der enthaltenden Buchstaben ....

Und schwups hast du einen Haufen möglicher guter Kandidaten aussortiert.

800XE hat geschrieben:chegu.de/miiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiircrosoft.html
das kann schlecht matchen ....
Len:53 hLen:26 sleft:miiiiiiiiiiiiiiiiiiiiiiiii sleft:iiiiiiiiiiiiiiiiiircrosoft
Lösung
Char bei Char durchlaufen und alle auf "einstellig" reduzieren
dann wären wir wieder bei /mircrosoft.html = Filter 4 noch 10

Du suchst Dir ein Beispiel mit dem dein Algorithmus gut zurechtkommt, das in der Praxis aber quasi nicht auftritt. Du vernachlässigst, daß dein Algorithmus mit der Masse an Fällen überhaupt nicht klar kommt.

Du kannst mal eine größere Menge Wörter auf die alphabetisch sortierten Buchstaben reduzieren und das Ergebnis und die Wörter in eine Tabelle speichern. Dann sortierst Du nach der Spalte mit den Buchstaben und schaust, was Du alles für Wörter findest, die nach deinem Algo "ähnlich" sind. Bei langen Wörtern sollte es am augenfälligsten sein.

Mir will kein gutes Beispiel einfallen aber ich wette Du findest jede Menge Beispiele wie das mit Britney Spears.

Oder Du gehst mal die Flexionen eines Wortes durch, z.B. die Konjugation eines unregelmäßigen Verbes., um es deutlichzumachen.
https://de.wiktionary.org/wiki/gehen_%28Konjugation%29

ging -> gin
gegangen -> aegn

800XE hat geschrieben:und nu bist du wieder dran .....
... bin ich auf einem guten Wege?

Wenn Du aus deinen Fehlern lernst, ja. Du kannst aber auch von meinen Erfahrungen profitieren. Du mußt dich nicht auf meine Aussagen verlassen, aber hinterfrage deine Methoden kritisch auf meine Einwände hin.

PS: Den Porter Stemmer Algorithmus kannst Du Dir auch mal anschauen. Der bildet den Wortstamm bzw. er soll es. Das funktioniert zwar bei vielen Wörtern auch nicht, gerade im Deutschen aber auch das ist besser als Buchstaben zählen.

Verfasst: **10.06.2008, 14:29**

800XE hat geschrieben:jetzt mit Filter Nummer 5

Wie was? Was ist Filter oder Schritt eins bis fünf?

PS: Schar und Arsch sind nach deinem Algo ähnlich.

Verfasst: **10.06.2008, 14:50**

ich pack das meintenSie mal auf die Subdomain WebTools ...
.... entkoplung von der AffiliateArtikelSuche

dann können wir besser spielen .....

Hasenhuf hat geschrieben:
800XE hat geschrieben:ich zähle die existenz ..... die existenz interessiert immer nur 1mal .... was da ist ist das, egal wie oft, will nur wissen ob es da ist
Aus Langeweile oder hast Du ein Ziel? Siehst Du Deinen Weg zum Ziel führen?

ich frage mich schon lange wie Google das macht ....
... hab mich nur gefragt, ohne wirklich eine Antwort zu suchen
und vor ca 4 Woche fiel quaise eine Antwort vom Himmel
und nun frage ich mich wie gut die Antwort ist

Hasenhuf hat geschrieben:
800XE hat geschrieben:der erste Scrit ist schon eine Art Stringvergleich .....
.... aber erstmal nicht der String selbst, sondern ein (int) ....
es werden Wörter gesucht die gleichviele Buchtaben enthalten .... Achtung, existens, nicht vorhandensein bestimt die Anzahl der enthaltenden Buchstaben ....
Und schwups hast du einen Haufen möglicher guter Kandidaten aussortiert.

ne,
ok, wenn ich genau auf die Anzahl gehe schon ... siehe Filter 1
wenn ich +- 1 dann sind wir bei Filter 2
und bei Filter 3 ist es glaub +-2
oder war es doch Anders ... ja, da ist noch ein Anderer unterschied

Hasenhuf hat geschrieben:
800XE hat geschrieben:chegu.de/miiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiircrosoft.html
das kann schlecht matchen ....
Len:53 hLen:26 sleft:miiiiiiiiiiiiiiiiiiiiiiiii sleft:iiiiiiiiiiiiiiiiiircrosoft
Lösung
Char bei Char durchlaufen und alle auf "einstellig" reduzieren
dann wären wir wieder bei /mircrosoft.html = Filter 4 noch 10
Du suchst Dir ein Beispiel mit dem dein Algorithmus gut zurechtkommt, das in der Praxis aber quasi nicht auftritt. Du vernachlässigst, daß dein Algorithmus mit der Masse an Fällen überhaupt nicht klar kommt.

Also, das mircosoft ist ein beispiel eines WMP Kollegen .... der dort letztens fragte wie Google dann zu seinem
meiten Sie "Microsoft" kommt

und das mit den vielen iiiiiiiiiiii ist eben nur ein grundlegender Unterschied bei mir zu Google
wie gesagt, noch eine kleine WhileSchleife und das miiiiiiiicro..... matcht auch

Hasenhuf hat geschrieben:Du kannst mal eine größere Menge Wörter auf die alphabetisch sortierten Buchstaben reduzieren und das Ergebnis und die Wörter in eine Tabelle speichern.

Also, das mit dem AlphaSort .... diese datenspalte nutze ich eigentlich nicht .... die ist ein mehr oder weniger unötiges Nebenprodukt .... nur aus neugier in die SQL gelegt, brauche sie nicht

Verfasst: **10.06.2008, 15:03**

800XE hat geschrieben:ok, wenn ich genau auf die Anzahl gehe schon ... siehe Filter 1
wenn ich +- 1 dann sind wir bei Filter 2
und bei Filter 3 ist es glaub +-2

Wenn Du bei Filter 1 aber "genug" findest, nimmst Du den zweiten doch aber nicht mehr oder? Dann findest du vielleicht was passendes aber vielleicht hätte es noch was besseres gegeben. (Die Gefahr besteht immer aber man sollte sie gering halten.)

800XE hat geschrieben:Also, das mit dem AlphaSort .... diese datenspalte nutze ich eigentlich nicht .... die ist ein mehr oder weniger unötiges Nebenprodukt .... nur aus neugier in die SQL gelegt, brauche sie nicht

Und ich dachte das ist dein Grundprinzip.

Erkläre doch noch mal in möglichst klaren Sätzen, was Du willst und was Du bisher machst.

PS: Amerikanismus = Nassauermimik
https://wordpool-home.de/anagrams.php

ABAKUS

meintestDU "welches Keyword hätt ich gern"?

meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?

Re: meintestDU "welches Keyword hätt ich gern"?