UTF-8

Das ist der Eintrag dazu aus unserem IT-Kommunikationslexikon:

Unicode Transformation Format-8

UTF-8 ist eine Codierungsformat für Unicode. Es verwendet eine variable Anzahl von Bytes für die Darstellung der Unicode-Zeichen. Sein wesentlicher Vorteil ist, dass die Zeichen, die dem ASCII-Zeichensatz entsprechen, mit einem Byte dargestellt werden können. Es lassen sich aber auch alle anderen Zeichen mit längeren Bytefolgen darstellen. Für den Wertevorrat von UTF-16 werden dazu 2 bis 5 Byte, für den Wertevorrat von UTF-32 2 bis 7 Byte benötigt. Durch diese Flexibilität und Effizienz ist UTF-8 die verbreiteteste Codierung für die Speicherung von Webseiten im Internet geworden. Ihr Nachteil ist, dass sie sich schlecht für die Verarbeitung innerhalb von Programmen eignet. Algorithmen wie das Durchsuchen oder Sortieren von Zeichenketten lassen sich besser mit Darstellungen wie UTF-16 oder UTF-32 ausführen, bei denen für alle Zeichen die gleiche Anzahl von Bytes verwendet wird.

Aktuelle Beiträge

Mit Zero-Trust-Segmentierung zu NIS-2

Mitte Oktober müssen die EU-Staaten die neue NIS-2-Richtlinie für Cybersicherheit in die nationale Gesetzgebung übertragen. Die hierzulande etwa 30.000 betroffenen Unternehmen und Organisationen haben dann höchstens vier Jahre Zeit, die Vorgaben umzusetzen und dies nachzuweisen. Der Gastbeitrag erklärt, welche Mindeststandards die Richtlinie einfordert und wie IT-Verantwortliche die Cyberresilienz erhöhen können.