türkische zeichen umwandeln

Beitrag von **DJTonic** » 25.08.2006, 23:30

ich sitze hier gerade an einem problem, an dem ich mir irgendwie die zähne ausbeisse.

nehmen wir an ich habe einen türkischen städtenamen:
Çığlık

diese sonderzeichen möchte ich in "deutsche" zeichen umwandeln.

aus Çığlık soll also Ciglik werden.

leider ist mein problem nicht nur auf türkisch beschränkt. hat da jemand einen ansatz?

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **Southmedia** » 26.08.2006, 00:13

Code: Alles auswählen

$from = 'àáâãåçèéêëìíîïñòóôõøšùúû';
$to   = 'aaaaaceeeeiiiinooooosuuu';
$clean_string = strtr&#40;$string, $from, $to&#41;;

$from enthält die türkischen Zeichen (einfach alles reinmachen was du findest), $to die saubere Entsprechnung. Ob es eine Lösung über reguläre Ausdrücke gibt weiss ich nicht. strtr ist wunderbar schnell.

strtr() hilft auch wenn du Œ durch OE ersetzen musst, einfach nur 2 Parameter benutzen wobei das zweite ein Array ist das im Schlüssel das zu ersetzende, im Wert das ersetzende Zeichen enthält.

Beitrag von **Southmedia** » 26.08.2006, 00:16

Ach ja, wäre nett wenn du die Ersetzungsliste hier dann ggf. posten könntest

Beitrag von **DJTonic** » 26.08.2006, 11:36

danke für deinen code jan. leider haben wir wohl aneinander vorbeigeredet

diesen code hätte ich schon eingesetzt, ich wollte es halt vermeiden, dutzende zeichensätze nach allen zeichen mit einem zusatzkringel zu durchsuchen

(weil: problem ist generell und nicht auf türkisch beschränkt)

wird mir wohl dann nix anderes übrig bleiben, sofern nicht schonmal wer das gemacht hat

Beitrag von **Southmedia** » 26.08.2006, 13:09

Zeichentabellen sollten sich im Netz finden lassen. Deine Aufgabe besteht dann nur darin, die sauberen Ersetzungen zusammenzusammeln.

Beitrag von **Southmedia** » 26.08.2006, 17:25

Also ich habe noch ein wenig gesucht. Eine Idee ist den String erst durch htmlentities laufen zu lassen und dann zu ersetzen, finde ich gar nicht so doof:

https://de3.php.net/manual/de/function. ... .php#68480
https://de3.php.net/manual/de/function. ... .php#51262

Beitrag von **Southmedia** » 26.08.2006, 17:28

Wordpress geht den heftigeren Weg um Titel von Postings in Strings zu verwandeln die in URLs nutzbar sind, hier die wichtigsten (soweit ich das überblicke, der Wordpresscode ist nicht gerade ein Meisterwerk...) Funktionen:

Code: Alles auswählen

function remove_accents&#40;$string&#41; &#123;
	if &#40;seems_utf8&#40;$string&#41;&#41; &#123;
		$chars = array&#40;
		// Decompositions for Latin-1 Supplement
		chr&#40;195&#41;.chr&#40;128&#41; => 'A', chr&#40;195&#41;.chr&#40;129&#41; => 'A',
		chr&#40;195&#41;.chr&#40;130&#41; => 'A', chr&#40;195&#41;.chr&#40;131&#41; => 'A',
		chr&#40;195&#41;.chr&#40;132&#41; => 'A', chr&#40;195&#41;.chr&#40;133&#41; => 'A',
		chr&#40;195&#41;.chr&#40;135&#41; => 'C', chr&#40;195&#41;.chr&#40;136&#41; => 'E',
		chr&#40;195&#41;.chr&#40;137&#41; => 'E', chr&#40;195&#41;.chr&#40;138&#41; => 'E',
		chr&#40;195&#41;.chr&#40;139&#41; => 'E', chr&#40;195&#41;.chr&#40;140&#41; => 'I',
		chr&#40;195&#41;.chr&#40;141&#41; => 'I', chr&#40;195&#41;.chr&#40;142&#41; => 'I',
		chr&#40;195&#41;.chr&#40;143&#41; => 'I', chr&#40;195&#41;.chr&#40;145&#41; => 'N',
		chr&#40;195&#41;.chr&#40;146&#41; => 'O', chr&#40;195&#41;.chr&#40;147&#41; => 'O',
		chr&#40;195&#41;.chr&#40;148&#41; => 'O', chr&#40;195&#41;.chr&#40;149&#41; => 'O',
		chr&#40;195&#41;.chr&#40;150&#41; => 'O', chr&#40;195&#41;.chr&#40;153&#41; => 'U',
		chr&#40;195&#41;.chr&#40;154&#41; => 'U', chr&#40;195&#41;.chr&#40;155&#41; => 'U',
		chr&#40;195&#41;.chr&#40;156&#41; => 'U', chr&#40;195&#41;.chr&#40;157&#41; => 'Y',
		chr&#40;195&#41;.chr&#40;159&#41; => 's', chr&#40;195&#41;.chr&#40;160&#41; => 'a',
		chr&#40;195&#41;.chr&#40;161&#41; => 'a', chr&#40;195&#41;.chr&#40;162&#41; => 'a',
		chr&#40;195&#41;.chr&#40;163&#41; => 'a', chr&#40;195&#41;.chr&#40;164&#41; => 'a',
		chr&#40;195&#41;.chr&#40;165&#41; => 'a', chr&#40;195&#41;.chr&#40;167&#41; => 'c',
		chr&#40;195&#41;.chr&#40;168&#41; => 'e', chr&#40;195&#41;.chr&#40;169&#41; => 'e',
		chr&#40;195&#41;.chr&#40;170&#41; => 'e', chr&#40;195&#41;.chr&#40;171&#41; => 'e',
		chr&#40;195&#41;.chr&#40;172&#41; => 'i', chr&#40;195&#41;.chr&#40;173&#41; => 'i',
		chr&#40;195&#41;.chr&#40;174&#41; => 'i', chr&#40;195&#41;.chr&#40;175&#41; => 'i',
		chr&#40;195&#41;.chr&#40;177&#41; => 'n', chr&#40;195&#41;.chr&#40;178&#41; => 'o',
		chr&#40;195&#41;.chr&#40;179&#41; => 'o', chr&#40;195&#41;.chr&#40;180&#41; => 'o',
		chr&#40;195&#41;.chr&#40;181&#41; => 'o', chr&#40;195&#41;.chr&#40;182&#41; => 'o',
		chr&#40;195&#41;.chr&#40;182&#41; => 'o', chr&#40;195&#41;.chr&#40;185&#41; => 'u',
		chr&#40;195&#41;.chr&#40;186&#41; => 'u', chr&#40;195&#41;.chr&#40;187&#41; => 'u',
		chr&#40;195&#41;.chr&#40;188&#41; => 'u', chr&#40;195&#41;.chr&#40;189&#41; => 'y',
		chr&#40;195&#41;.chr&#40;191&#41; => 'y',
		// Decompositions for Latin Extended-A
		chr&#40;196&#41;.chr&#40;128&#41; => 'A', chr&#40;196&#41;.chr&#40;129&#41; => 'a',
		chr&#40;196&#41;.chr&#40;130&#41; => 'A', chr&#40;196&#41;.chr&#40;131&#41; => 'a',
		chr&#40;196&#41;.chr&#40;132&#41; => 'A', chr&#40;196&#41;.chr&#40;133&#41; => 'a',
		chr&#40;196&#41;.chr&#40;134&#41; => 'C', chr&#40;196&#41;.chr&#40;135&#41; => 'c',
		chr&#40;196&#41;.chr&#40;136&#41; => 'C', chr&#40;196&#41;.chr&#40;137&#41; => 'c',
		chr&#40;196&#41;.chr&#40;138&#41; => 'C', chr&#40;196&#41;.chr&#40;139&#41; => 'c',
		chr&#40;196&#41;.chr&#40;140&#41; => 'C', chr&#40;196&#41;.chr&#40;141&#41; => 'c',
		chr&#40;196&#41;.chr&#40;142&#41; => 'D', chr&#40;196&#41;.chr&#40;143&#41; => 'd',
		chr&#40;196&#41;.chr&#40;144&#41; => 'D', chr&#40;196&#41;.chr&#40;145&#41; => 'd',
		chr&#40;196&#41;.chr&#40;146&#41; => 'E', chr&#40;196&#41;.chr&#40;147&#41; => 'e',
		chr&#40;196&#41;.chr&#40;148&#41; => 'E', chr&#40;196&#41;.chr&#40;149&#41; => 'e',
		chr&#40;196&#41;.chr&#40;150&#41; => 'E', chr&#40;196&#41;.chr&#40;151&#41; => 'e',
		chr&#40;196&#41;.chr&#40;152&#41; => 'E', chr&#40;196&#41;.chr&#40;153&#41; => 'e',
		chr&#40;196&#41;.chr&#40;154&#41; => 'E', chr&#40;196&#41;.chr&#40;155&#41; => 'e',
		chr&#40;196&#41;.chr&#40;156&#41; => 'G', chr&#40;196&#41;.chr&#40;157&#41; => 'g',
		chr&#40;196&#41;.chr&#40;158&#41; => 'G', chr&#40;196&#41;.chr&#40;159&#41; => 'g',
		chr&#40;196&#41;.chr&#40;160&#41; => 'G', chr&#40;196&#41;.chr&#40;161&#41; => 'g',
		chr&#40;196&#41;.chr&#40;162&#41; => 'G', chr&#40;196&#41;.chr&#40;163&#41; => 'g',
		chr&#40;196&#41;.chr&#40;164&#41; => 'H', chr&#40;196&#41;.chr&#40;165&#41; => 'h',
		chr&#40;196&#41;.chr&#40;166&#41; => 'H', chr&#40;196&#41;.chr&#40;167&#41; => 'h',
		chr&#40;196&#41;.chr&#40;168&#41; => 'I', chr&#40;196&#41;.chr&#40;169&#41; => 'i',
		chr&#40;196&#41;.chr&#40;170&#41; => 'I', chr&#40;196&#41;.chr&#40;171&#41; => 'i',
		chr&#40;196&#41;.chr&#40;172&#41; => 'I', chr&#40;196&#41;.chr&#40;173&#41; => 'i',
		chr&#40;196&#41;.chr&#40;174&#41; => 'I', chr&#40;196&#41;.chr&#40;175&#41; => 'i',
		chr&#40;196&#41;.chr&#40;176&#41; => 'I', chr&#40;196&#41;.chr&#40;177&#41; => 'i',
		chr&#40;196&#41;.chr&#40;178&#41; => 'IJ',chr&#40;196&#41;.chr&#40;179&#41; => 'ij',
		chr&#40;196&#41;.chr&#40;180&#41; => 'J', chr&#40;196&#41;.chr&#40;181&#41; => 'j',
		chr&#40;196&#41;.chr&#40;182&#41; => 'K', chr&#40;196&#41;.chr&#40;183&#41; => 'k',
		chr&#40;196&#41;.chr&#40;184&#41; => 'k', chr&#40;196&#41;.chr&#40;185&#41; => 'L',
		chr&#40;196&#41;.chr&#40;186&#41; => 'l', chr&#40;196&#41;.chr&#40;187&#41; => 'L',
		chr&#40;196&#41;.chr&#40;188&#41; => 'l', chr&#40;196&#41;.chr&#40;189&#41; => 'L',
		chr&#40;196&#41;.chr&#40;190&#41; => 'l', chr&#40;196&#41;.chr&#40;191&#41; => 'L',
		chr&#40;197&#41;.chr&#40;128&#41; => 'l', chr&#40;197&#41;.chr&#40;129&#41; => 'L',
		chr&#40;197&#41;.chr&#40;130&#41; => 'l', chr&#40;197&#41;.chr&#40;131&#41; => 'N',
		chr&#40;197&#41;.chr&#40;132&#41; => 'n', chr&#40;197&#41;.chr&#40;133&#41; => 'N',
		chr&#40;197&#41;.chr&#40;134&#41; => 'n', chr&#40;197&#41;.chr&#40;135&#41; => 'N',
		chr&#40;197&#41;.chr&#40;136&#41; => 'n', chr&#40;197&#41;.chr&#40;137&#41; => 'N',
		chr&#40;197&#41;.chr&#40;138&#41; => 'n', chr&#40;197&#41;.chr&#40;139&#41; => 'N',
		chr&#40;197&#41;.chr&#40;140&#41; => 'O', chr&#40;197&#41;.chr&#40;141&#41; => 'o',
		chr&#40;197&#41;.chr&#40;142&#41; => 'O', chr&#40;197&#41;.chr&#40;143&#41; => 'o',
		chr&#40;197&#41;.chr&#40;144&#41; => 'O', chr&#40;197&#41;.chr&#40;145&#41; => 'o',
		chr&#40;197&#41;.chr&#40;146&#41; => 'OE',chr&#40;197&#41;.chr&#40;147&#41; => 'oe',
		chr&#40;197&#41;.chr&#40;148&#41; => 'R',chr&#40;197&#41;.chr&#40;149&#41; => 'r',
		chr&#40;197&#41;.chr&#40;150&#41; => 'R',chr&#40;197&#41;.chr&#40;151&#41; => 'r',
		chr&#40;197&#41;.chr&#40;152&#41; => 'R',chr&#40;197&#41;.chr&#40;153&#41; => 'r',
		chr&#40;197&#41;.chr&#40;154&#41; => 'S',chr&#40;197&#41;.chr&#40;155&#41; => 's',
		chr&#40;197&#41;.chr&#40;156&#41; => 'S',chr&#40;197&#41;.chr&#40;157&#41; => 's',
		chr&#40;197&#41;.chr&#40;158&#41; => 'S',chr&#40;197&#41;.chr&#40;159&#41; => 's',
		chr&#40;197&#41;.chr&#40;160&#41; => 'S', chr&#40;197&#41;.chr&#40;161&#41; => 's',
		chr&#40;197&#41;.chr&#40;162&#41; => 'T', chr&#40;197&#41;.chr&#40;163&#41; => 't',
		chr&#40;197&#41;.chr&#40;164&#41; => 'T', chr&#40;197&#41;.chr&#40;165&#41; => 't',
		chr&#40;197&#41;.chr&#40;166&#41; => 'T', chr&#40;197&#41;.chr&#40;167&#41; => 't',
		chr&#40;197&#41;.chr&#40;168&#41; => 'U', chr&#40;197&#41;.chr&#40;169&#41; => 'u',
		chr&#40;197&#41;.chr&#40;170&#41; => 'U', chr&#40;197&#41;.chr&#40;171&#41; => 'u',
		chr&#40;197&#41;.chr&#40;172&#41; => 'U', chr&#40;197&#41;.chr&#40;173&#41; => 'u',
		chr&#40;197&#41;.chr&#40;174&#41; => 'U', chr&#40;197&#41;.chr&#40;175&#41; => 'u',
		chr&#40;197&#41;.chr&#40;176&#41; => 'U', chr&#40;197&#41;.chr&#40;177&#41; => 'u',
		chr&#40;197&#41;.chr&#40;178&#41; => 'U', chr&#40;197&#41;.chr&#40;179&#41; => 'u',
		chr&#40;197&#41;.chr&#40;180&#41; => 'W', chr&#40;197&#41;.chr&#40;181&#41; => 'w',
		chr&#40;197&#41;.chr&#40;182&#41; => 'Y', chr&#40;197&#41;.chr&#40;183&#41; => 'y',
		chr&#40;197&#41;.chr&#40;184&#41; => 'Y', chr&#40;197&#41;.chr&#40;185&#41; => 'Z',
		chr&#40;197&#41;.chr&#40;186&#41; => 'z', chr&#40;197&#41;.chr&#40;187&#41; => 'Z',
		chr&#40;197&#41;.chr&#40;188&#41; => 'z', chr&#40;197&#41;.chr&#40;189&#41; => 'Z',
		chr&#40;197&#41;.chr&#40;190&#41; => 'z', chr&#40;197&#41;.chr&#40;191&#41; => 's',
		// Euro Sign
		chr&#40;226&#41;.chr&#40;130&#41;.chr&#40;172&#41; => 'E'&#41;;

		$string = strtr&#40;$string, $chars&#41;;
	&#125; else &#123;
		// Assume ISO-8859-1 if not UTF-8
		$chars&#91;'in'&#93; = chr&#40;128&#41;.chr&#40;131&#41;.chr&#40;138&#41;.chr&#40;142&#41;.chr&#40;154&#41;.chr&#40;158&#41;
			.chr&#40;159&#41;.chr&#40;162&#41;.chr&#40;165&#41;.chr&#40;181&#41;.chr&#40;192&#41;.chr&#40;193&#41;.chr&#40;194&#41;
			.chr&#40;195&#41;.chr&#40;196&#41;.chr&#40;197&#41;.chr&#40;199&#41;.chr&#40;200&#41;.chr&#40;201&#41;.chr&#40;202&#41;
			.chr&#40;203&#41;.chr&#40;204&#41;.chr&#40;205&#41;.chr&#40;206&#41;.chr&#40;207&#41;.chr&#40;209&#41;.chr&#40;210&#41;
			.chr&#40;211&#41;.chr&#40;212&#41;.chr&#40;213&#41;.chr&#40;214&#41;.chr&#40;216&#41;.chr&#40;217&#41;.chr&#40;218&#41;
			.chr&#40;219&#41;.chr&#40;220&#41;.chr&#40;221&#41;.chr&#40;224&#41;.chr&#40;225&#41;.chr&#40;226&#41;.chr&#40;227&#41;
			.chr&#40;228&#41;.chr&#40;229&#41;.chr&#40;231&#41;.chr&#40;232&#41;.chr&#40;233&#41;.chr&#40;234&#41;.chr&#40;235&#41;
			.chr&#40;236&#41;.chr&#40;237&#41;.chr&#40;238&#41;.chr&#40;239&#41;.chr&#40;241&#41;.chr&#40;242&#41;.chr&#40;243&#41;
			.chr&#40;244&#41;.chr&#40;245&#41;.chr&#40;246&#41;.chr&#40;248&#41;.chr&#40;249&#41;.chr&#40;250&#41;.chr&#40;251&#41;
			.chr&#40;252&#41;.chr&#40;253&#41;.chr&#40;255&#41;;

		$chars&#91;'out'&#93; = "EfSZszYcYuAAAAAACEEEEIIIINOOOOOOUUUUYaaaaaaceeeeiiiinoooooouuuuyy";

		$string = strtr&#40;$string, $chars&#91;'in'&#93;, $chars&#91;'out'&#93;&#41;;
		$double_chars&#91;'in'&#93; = array&#40;chr&#40;140&#41;, chr&#40;156&#41;, chr&#40;198&#41;, chr&#40;208&#41;, chr&#40;222&#41;, chr&#40;223&#41;, chr&#40;230&#41;, chr&#40;240&#41;, chr&#40;254&#41;&#41;;
		$double_chars&#91;'out'&#93; = array&#40;'OE', 'oe', 'AE', 'DH', 'TH', 'ss', 'ae', 'dh', 'th'&#41;;
		$string = str_replace&#40;$double_chars&#91;'in'&#93;, $double_chars&#91;'out'&#93;, $string&#41;;
	&#125;

	return $string;
&#125;

function sanitize_title&#40;$title, $fallback_title = ''&#41; &#123;
	$title = strip_tags&#40;$title&#41;;
	$title = apply_filters&#40;'sanitize_title', $title&#41;;

	if &#40;empty&#40;$title&#41;&#41; &#123;
		$title = $fallback_title;
	&#125;

	return $title;
&#125;

function sanitize_title_with_dashes&#40;$title&#41; &#123;
	$title = strip_tags&#40;$title&#41;;
	// Preserve escaped octets.
	$title = preg_replace&#40;'|%&#40;&#91;a-fA-F0-9&#93;&#91;a-fA-F0-9&#93;&#41;|', '---$1---', $title&#41;;
	// Remove percent signs that are not part of an octet.
	$title = str_replace&#40;'%', '', $title&#41;;
	// Restore octets.
	$title = preg_replace&#40;'|---&#40;&#91;a-fA-F0-9&#93;&#91;a-fA-F0-9&#93;&#41;---|', '%$1', $title&#41;;

	$title = remove_accents&#40;$title&#41;;
	if &#40;seems_utf8&#40;$title&#41;&#41; &#123;
		if &#40;function_exists&#40;'mb_strtolower'&#41;&#41; &#123;
			$title = mb_strtolower&#40;$title, 'UTF-8'&#41;;
		&#125;
		$title = utf8_uri_encode&#40;$title&#41;;
	&#125;

	$title = strtolower&#40;$title&#41;;
	$title = preg_replace&#40;'/&.+?;/', '', $title&#41;; // kill entities
	$title = preg_replace&#40;'/&#91;^%a-z0-9 _-&#93;/', '', $title&#41;;
	$title = preg_replace&#40;'/\s+/', '-', $title&#41;;
	$title = preg_replace&#40;'|-+|', '-', $title&#41;;
	$title = trim&#40;$title, '-'&#41;;

	return $title;
&#125;

Beitrag von **DJTonic** » 26.08.2006, 17:38

so, ich werd mein problem jetzt nochmal spezifizieren und danach deine beiden methoden testen:
ich bekomme den ortnamen im QUELLTEXT so:
Ã‡Ä±ÄŸlÄ±k

im BROWSER sieht es so aus:
Çığlık

logisch, da wirds ja utf-8 angezeigt

folglich funktioniert dein allererster ansatz mit strstr nicht.

der wordpressansatz sieht aber schonmal gut aus, den teste ich jetzt mal.

edit: der wordpress-workaround funktioniert perfekt.
jan, ich liebe dich

Beitrag von **Southmedia** » 26.08.2006, 17:41

Hier findet sich ein regulärer Ausdruck um alle non-ASCII / non-ISO-8859-1 - Zeichen zu filtern:
https://www.sitepoint.com/forums/showth ... ost1864683

Fehlt "nur" die Ersetzung...

Beitrag von **DJTonic** » 26.08.2006, 17:50

um dann zum krönenden abschluss aus dem wordpress-funktion noch die deutschem umlaute nicht umwandeln zu lassen, hier die chars die man beim
// Decompositions for Latin-1 Supplement
-Teil rauslöschen sollte:

ü 195 188
Ü 195 156
ä 195 164
Ä 195 132
ö 195 182
Ö 195 150
ß 195 159

diese kann man dann wiederrum mit utf8_encode umwandeln.

Beitrag von **Southmedia** » 26.08.2006, 17:58

Na das ist doch schonmal was.

Jetzt nur hoffen, dass da alle Zeichen abgedeckt sind. Man könnte mal rausfinden, wer die Funktion geschrieben hat bzw wo die Wordpress-Macher sie geklaut haben. Vielleicht gibt es schon verbesserte und erweiterte Versionen.

Beitrag von **DJTonic** » 26.08.2006, 18:26

ob das alles abdeckt werde ich in kurzer zeit wissen