UTF-7

Das ist der Eintrag dazu aus unserem IT-Kommunikationslexikon:


Unicode Transformation Format-7

UTF-7 ist ein Codierungsformat für Unicode, das im RFC 2152 definiert wurde. Es erlaubt die Verwendung von Unicode in nicht 8-Bit-festen Umgebungen.

Viele Internet-Protokolle (zum Beispiel SMTP oder NNTP) setzen die Verwendung von 7-Bit-ASCII voraus. Mit 7 Bit können nur 128 Zeichen dargestellt werden. Für alle anderen Zeichen verwenden die UTF-Codierungen zwischen 8 und 56 Bit pro Zeichen. So muss ein UTF-8-Text für die Übertragung zum Beispiel mittels Base64 in eine eine 7-Bit-Kodierung umgewandelt werden. Allerdings bläht das die zu übertragenden Daten nochmals auf. Daher wurde UTF-7 entworfen, um diesen Mehrverbrauch für Texten, die hauptsächlich ASCII-Zeichen enthalten, zu veringern und gleichzeitig möglichst lesbar zu halten.

Trotz dieser Vorteile konnte sich UTF-7 nicht mehr durchgesetzen, da Verfahren wie Base64 von nahezu jedem EMail- und News-Programm bereits verstanden wurden und die größere Datenmenge in der Praxis durch Komprimierung und schnelle Übertragungsverfahren keine Rolle spielt.

Aktuelle Beiträge

Komprimierte Logfiles in Linux direkt auslesen

Auf produktiven Linux-Systemen werden Logdateien häufig komprimiert abgelegt, um Speicherplatz zu sparen und Logrotationen effizient umzusetzen. Für die Analyse bedeutet das jedoch oft einen unnötigen Zwischenschritt: Die Dateien müssen erst kopiert und entpackt werden, bevor sie sich mit klassischen Werkzeugen auswerten lassen. Mit einem Trick lesen Sie komprimierte Logfiles direkt aus.