CESU-8


Compatibility Encoding Scheme for UTF-16: 8-Bit

Mit der Erweiterung von UTF-16 in Unicode Version 4.0 auf maximal zwei 16-Bit-Gruppen pro Zeichen tauchte das Problem auf, dass viele existierende Unicode-Implementierungen von UTF-16 plötzlich inkompatibel geworden wären. Da sie nur von einer 16-Bit-Gruppe pro Zeichen ausgehen, wandeln sie längere Zeichen so nach UTF-8 um, als wären es zwei 16-Bit-Zeichen. Eigentlich ist aber vorgesehen, die zwei Gruppen in einen Unicode-Wert zurückzurechnen und diesen dann nach UTF-8 zurückzuwandeln.

Im Unicode Technical Report #26 wurde die abwärtskompatible Umwandlung als CESU-8 legalsiert.

Aktuelle Beiträge