utf-8编码

最新推荐文章于 2025-01-14 07:33:19 发布

转载最新推荐文章于 2025-01-14 07:33:19 发布 · 1.4k 阅读

文章标签：

#transformation #unix #character #文档 #编程 #java

C语言资料收集专栏收录该内容

12 篇文章

订阅专栏

转:http://jspengxue.javaeye.com/blog/40784

关键字: utf-8编码格式

UTF-8
一种字符集

介绍UTF-8编码规则

首先 UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00.

在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 '' 或 '/', 它们在文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.

在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.

UTF-8 有一下特性:

UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的.

所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.

表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.

本人的思考和分析:

为什么要规定:第一个字节总是在 0xC0 到 0xFD 的范围里.而该字符的其余字节的编码范围则总是在:0x80 到 0xBF 范围里?

首先:UTF-8的(0x00-0x7F)所表示的128个字符, 与ASCII编码(0x00-0x7f)所表示的128个字符是一样的.这是为了与ASCII编码兼容.(而ASCII 编码:0x80-0xff这一范围没有被用到.)这些没有用到的编码范围为UTF-8编码的诞生孕育了空间.

也就是说：UTF-8编码要用(0x80-0xff)这一范（128个编码）转来给世界上所有已存在自然符号，一个唯一的标识。如果仍像ASCII那样，采用一个编码对应一个字符的方式，也只能表示另外128个字符。于是就想到了另一种变通方法。多个字节只表示一个字符。unicode-16就是采用思路的.即固定用16bit（两个字节)表示一个字符。且用FF Fe 来做为unicode-16编码的标识。不过UTF-8编码，更灵活。他不像unicode-16那样，用固定(两个字节)表示一个字符。也就是说不同字符，用UTF-8编码方法来标识的话，它所占的字节数可能不一样。那么在一个文本中，那些字节是用来表示某个字符的呢。需要有些特征码来标识。即某字符的第一字节中，bit7-bit2 连续是1的个数来确定，占多少个连续字节，是某个字符的编码.因此一个字符最多可占6个字节（最多连续6个1）。那为什么不是:bit7-bit0连续是1的个数来确定，占多少个连续字节，是某个字符的编码。假如是这样。那么会出现:0xfe,0xff这种情况。而0xfe,0xff已被unicode-16占用。这样会导至无法区分一个文本到底是unicode-16编码，还是utf-8编码。因此只能使用6个连续1的个数来确定了.它的排列形式如下:

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx.根据x的个数（31）。可以算出它能标识多少个自然字符.它比unicode-16。表示的范围多很多。

又有问题了：看上面的形式，为什么后面的字节前两位固定为10呢?当前两位固定为10，则范围就是:80-bf.与前用连续1的个数来确定字节数是一个完美的体系。

utf-8编码的最大特点:做到了最有效的利用存储空间和最有效的表示更大范围.

第一字节用: 0xc0-0xfd.其他字节用:0x80-0xbf.

我们把它们按大小顺序排列就成了: [0x80 -0xbf] [0xc0-0xfd] 这刚好是一段连续的空间.也就是ASCII没有用到的那一段范围.

那为什么只用到:0x80-0xfd这一段范围,而FE,FF这两个编码没有用呢? 因为FF,FE被unicode-16先占用了.若一个文本文档,用二进制查看方式查看,若文件的最前面两个字节是:FF FE或FE FF。则表示本文档是unicode-16编码.

可以编入所有可能的 231个 UCS 代码

UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.

Bigendian UCS-4 字节串的排列顺序是预定的.

字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.

下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号.

Java代码

U-00000000 - U-0000007F:

0xxxxxxx

U-00000080 - U-000007FF:

110xxxxx 10xxxxxx

U-00000800 - U-0000FFFF:

1110xxxx 10xxxxxx 10xxxxxx

U-00010000 - U-001FFFFF:

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

U-00200000 - U-03FFFFFF:

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF:

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:

11000010 10101001 = 0xC2 0xA9

而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:

11100010 10001001 10100000 = 0xE2 0x89 0xA0

这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.

什么编程语言支持 Unicode?

在大约 1993 年之后开发的大多数现代编程语言都有一个特别的数据类型, 叫做 Unicode/ISO 10646-1 字符. 在 Ada95 中叫 Wide_Character, 在 Java 中叫 char.

ISO C 也详细说明了处理多字节编码和宽字符 (wide characters) 的机制, 1994 年 9 月 Amendment 1 to ISO C 发表时又加入了更多. 这些机制主要是为各类东亚编码而设计的, 它们比处理 UCS 所需的要健壮得多. UTF-8 是 ISO C 标准调用多字节字符串的编码的一个例子, wchar_t 类型可以用来存放 Unicode 字符.