Beitrag
von Georgi » 03.06.2006, 22:49
Hallo bydlo,
Also erst mal das offensichtliche: URLs sind nach internationalem Standard in UTF8 codiert. Das ist erst mal das Einzige, worauf man sich verlassen kann, denn: Wie der Inhalt der Webseite selbst codiert ist wird - wie bereits gesagt - am Encoding festgemacht. Das Encoding wird als meta-tag auf der Seite angegeben. So weit also nichts Neues.
Was den Unterschied zwischen "ä", "ae" und "ä" ausmacht: Das Erste hängt vom System ab, auf dem der Content erstellt/ausgeliefert wird, das Zweite ist eine Interpretation (z.B. von Suchmaschinen) und das Dritte ist der allgemeine Code für HTML.
So gibt es auf Unix/Linux-Systemen z.B. nativ erst mal kein "ä", weil dort der US7ASCII-Code vorherrscht. Erstellst/Lieferst Du z.B. die Seite auf/von einem *ix - System, so hängt das teilweise vom Editor/Webserver/dem System (und deren Konfiguration) ab, ob die Zeichen richtig übermittelt werden. Da hier ein gewisser Verlust an Information vorliegt (z.B. von 8Bit-Zeichen vermeintlich auf 7Bit-Zeichen), kann eine Suchmaschine dies auch nur "in etwa" kompensieren. Und weil bei einem guten Sortieralgorithmus (für z.B. Strings) ein "ä" in "ae" umgewandelt wird (weil dies in etwa das ist, was ein Mensch erwartet), sieht man dann andere Ergebnisse, je nachdem wie man sucht.
Langer Rede, kurzer Sinn: Du fährst, unabhängig vom eingestellten Encoding wohl immer am Besten, wenn Du die allgemeinen HTML-Codes benutzt (außer in URLs, da wäre ein "ö" ein "%C3%B6" : ). Diese sind standardisiert und so können die Suchmaschinen diese auch standardisiert ablegen.
Vodka, Georgi
P.S. @ole1210: Joomla ist in PHP geschrieben und der einzige (gute/richtige) workaround für PHP ist eben die standardisierten HTML-Codes (ä statt ä) zu verwenden, denn: PHP kann nativ ohne weiteres keine verschiedenen Zeichensätze, also z.B. kein IOS-8859-1 oder Latin-1. Eine oft angeprangerte Schwachstelle der Sprache... .