Unicode ist ein internationaler Standard mit dem angestrebt wird, für jedes sinntragende Zeichen aller bekannter Schriftsysteme einen einheitlichen digitalen Code festzulegen. Ziel ist die Beseitigung unterschiedlicher, inkompatibler Codierungen für verschiedene Sprach- und Kulturkreise. Dazu wird Unicode laufend um die Zeichen weiterer Schriftsysteme erweitert.
Von der ISO ist der Unicode-Zeichensatz im Standard 10646 normiert. Er wird dort Universal Character Set (UCS) genannt.
Frühere Zeichencodierungssysteme wie ASCII oder EBCDIC stellen ein Zeichen mit sieben oder acht Bit dar. Der damit darstellbare Zeichenmenge ist viel zu klein, um dem Unicode-Anspruch einer internationalen Vereinheitlichung gerecht werden zu können. Deshalb wurd Unicode ursprünglich als ein System entworfen, das pro Zeichen fest zwei Byte verwendet (UTF-16). Doch einerseits reichte selbst dieser Wertevorrat bald nicht mehr aus und andererseits wurde es gerade in Westeuropa und Amerika als Verschwendung angesehen, für jedes Zeichen jetzt den doppelten Speicherbedarf zu brauchen, auch wenn eigentlich der ASCII-Wertevorrat reichen würde. Daher wurde der Wertevorrat weiter erweitert und es wurden verschiedene Codierungsformate entwickelt, die Unicode Transformation Format (UTF) genannt werden und den unterschiedlichen Anforderungen Rechnung tragen. Die wichtigsten sind UTF-8 und UTF-16, weitere UTF-32, Punycode, UTF-EBCDIC, CESU-8 und GB18030.
Siehe auch:
ASCII
Code