Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
Das ist schonmal der grundlegend falsche Ansatz. URLs sollten für Menschen leserlich und benutzbar sein, nicht für Maschinen.scnmitz73 hat geschrieben:wir haben gerade eine umfassende Website online gestellt und sämtliche URLs per mod_rewrite für Google leserlich gemacht...
Unicode ist grundsätzlich, nicht nur aus Suchmaschinensicht, die optimale Zeichentabelle. utf-8 dazu ist das geringstmögliche Übel, Unicode in Byteketten zu verfrachten.Nun ist uns aufgelallen, dass Google & Wikipedia Umlaute und Sonderzeichen per UTF-8 (ä zu %C4%A4) codieren.
Dies scheint aus Suchmaschinensicht die optimale Codierung für Umlaute und Sonderzeichen darzustellen.
Ihr benutzt iso-8859-1 oder windows-1252.Wir hingegen nutzen leider einen URL-Encode, der die Sonderzeichen und Umlaute auf andere Weise umwandelt (ä zu %E4):
Zeichen außerhalb der Basisbuchstaben A-Z (groß und klein), der Ziffern 0-9 und einiger Satzzeichen sind Fremdkörper in URLs. Von daher wäre es das Klügste, gänzlich auf Umlaute und dergleichen in den URLs zu verzichten - Ihr habt mehr Ärger als Vorteile damit.Nun ist die Frage, ob wir nicht besser auf UTF-8 umstellen sollten, um zu gewährleisten, dass Google etwaige Suchbegriffe auch in den URLs findet (oder sollte das auch bei unserer Codierung funktionieren?).
Das müsst Ihr selbst entscheiden. Falls irgendwer von außen auf eine Eurer Seiten verweist, ist es nicht verkehrt, diese URLs umzuleiten bzw. noch besser denjenigen auf die Änderung hinzuweisen.Falls die Umstellung sinnvoll wäre, stellt sich die Frage, was dann mit den bestehenden (anders codierten) Links in Google passiert - wäre hier ein redirect nötig oder können wir aufgrund der kurzen Historie darauf verzichten?
Am einfachsten geht das indem Du die entspechende Spalte verdoppelst.ä -> ae etc. war auch unser erster ansatz...
leider müssen wir datenbanktechnisch eine rückübersetzung gewährleisten
Nicht ganz Kommt drauf an, was ihr genau macht. Ich nehme an, dass Du bei "dosieraerosol" die Datenbank nach diesem Begriff durchsuchst. Du könntest dann aber ja suchen nach:scnmitz73 hat geschrieben:ä -> ae etc. war auch unser erster ansatz...
leider müssen wir datenbanktechnisch eine rückübersetzung gewährleisten und die bricht uns dann das genick, weil dosieraerosol hierbei auch zu ...ärosol.. übersetzt würde, was schlichtweg falsch wäre.
"Aerosolkühlung" wird in der URL zu "Aerosolkuehlung"mcchaos hat geschrieben:dosieraerosol ODER dosierärosol
Wenn Du das mit regular Expressions für alle ersetzten Umlaute machst, kannst Du auch nach allen Möglichkeiten suchen, selbst wenn das Wort "Aerosolkühlung" heißen würde. Du darfst dann natürlich nicht das Wort "Ärosolkuehlung" als anderen Wert in der Datenbank haben.
Na, eben ganz genau eins, egal, wieviel Umlaute drin sind800XE hat geschrieben:"Aerosolkühlung" wird in der URL zu "Aerosolkuehlung"mcchaos hat geschrieben:dosieraerosol ODER dosierärosol
Wenn Du das mit regular Expressions für alle ersetzten Umlaute machst, kannst Du auch nach allen Möglichkeiten suchen, selbst wenn das Wort "Aerosolkühlung" heißen würde. Du darfst dann natürlich nicht das Wort "Ärosolkuehlung" als anderen Wert in der Datenbank haben.
wieviel wörter hats du dann im Query?
das matscht dann auch auf "Ärosolkuehlung"mcchaos hat geschrieben:Na, eben ganz genau eins, egal, wieviel Umlaute drin sind800XE hat geschrieben:"Aerosolkühlung" wird in der URL zu "Aerosolkuehlung"mcchaos hat geschrieben:Du darfst dann natürlich nicht das Wort "Ärosolkuehlung" als anderen Wert in der Datenbank haben.
wieviel wörter hats du dann im Query?
SELECT id FROM table WHERE spalte REGEXP '(Ae|Ä)rosolk(ue|ü)hlung'
Irgendwie müssen die Namen, aus denen letztlich auch die URLs entstehen, ja in die Datenbank kommen bzw. gekommen sein. Ich würde mich erstmal schlau machen, wie viele Namen überhaupt betroffen sind und anschließend abwägen, ob man nicht kurzerhand zu jedem Namen, der Sonderzeichen enthält, einen URL-Namen per Hand definiert. Das ginge sogar teilweise automatisch, da der eine oder andere Begriff bzw. Wortstamm sicher häufiger vorkommt (z. B. …säure => …saeure).scnmitz73 hat geschrieben:Leider erlaubt dies unsere Infrastruktur nicht, da die URLs dynamisch aus der Datenbank auf der Basis von Namen und Bezeichnungen definiert werden - hier lassen sich Umlaute und Sonderzeichen leider nicht vermeiden.
Nein, es ging mir nur darum, dass Google mit seinen eigenen URLs logischerweise umgehen kann, aber daraus sollte gerade nicht einen Rückschluss auf die allgemeine Vor- oder Nachteilhaftigkeit ziehen. Google kann sowohl mit iso-8859-1, mit utf-8 als auch mit ae/oe/ue/ss umgehen (und sicher mit einer Reihe weiterer Verfahren), da gibt es keinen Unterschied.Verstehe ich Deine Antwort richtig, dass in einem solchen Fall UTF-8 eingesetzt werden sollte, da Google dieses interpretieren kann,
Jetzt bin ich verwirrt: Du sagts es doch schon selbst, dass in dem Fall dann beides matcht. Wenn aber beides matcht, weiß ich nicht mehr, welche Seite ich nun darstellen soll. Deshalb muß man aufpassen, dass sowas nicht vorkommt.800XE hat geschrieben:das matscht dann auch auf "Ärosolkuehlung"mcchaos hat geschrieben:Na, eben ganz genau eins, egal, wieviel Umlaute drin sind800XE hat geschrieben: "Aerosolkühlung" wird in der URL zu "Aerosolkuehlung"
wieviel wörter hats du dann im Query?
SELECT id FROM table WHERE spalte REGEXP '(Ae|Ä)rosolk(ue|ü)hlung'
warum sagtest du dann das das nicht in der Datenbank stehen dürfte?
*verwirtbin*