utf-8编码

转:http://jspengxue.javaeye.com/blog/40784

 

关键字: utf-8编码格式

UTF-8
一种字符集

介绍UTF-8编码规则

首先 UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个 或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00.

在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 '' 或 '/', 它们在 文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.

在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.

UTF-8 有一下特性:

UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的.

所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.

表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.
本人的思考和分析:
为什么要规定:第一个字节总是在 0xC0 到 0xFD 的范围里.而该字符的其余字节的编码范围则总是在:0x80 到 0xBF 范围里?
首先:UTF-8的(0x00-0x7F)所表示的128个字符, 与ASCII编码(0x00-0x7f)所表示的128个字符是一样的.这是为了与ASCII编码兼容.(而ASCII 编码:0x80-0xff这一范围没有被用到.)这些没有用到的编码范围为UTF-8编码的诞生孕育了空间.
也就是说:UTF-8编码要用(0x80-0xff)这一范(128个编码)转来给世界上所有已存在自然符号,一个唯一的标识。如果仍像ASCII那样,采用一个编码对应一个字符的方式,也只能表示另外128个字符。于是就想到了另一种变通方法。多个字节只表示一个字符。unicode-16就是采用思路的.即固定用16bit(两个字节)表示一个字符。且用FF Fe 来做为unicode-16编码的标识。不过UTF-8编码,更灵活。他不像unicode-16那样,用固定(两个字节)表示一个字符。也就是说不同字符,用UTF-8编码方法来标识的话,它所占的字节数可能不一样。那么在一个文本中,那些字节是用来表示某个字符的呢。需要有些特征码来标识。即某字符的第一字节中,bit7-bit2 连续是1的个数来确定,占多少个连续字节,是某个字符的编码.因此一个字符最多可占6个字节(最多连续6个1)。那为什么不是:bit7-bit0连续是1的个数来确定,占多少个连续字节,是某个字符的编码。假如是这样。那么会出现:0xfe,0xff这种情况。而0xfe,0xff已被unicode-16占用。这样会导至无法区分一个文本到底是unicode-16编码,还是utf-8编码。因此只能使用6个连续1的个数来确定了.它的排列形式如下:
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx.根据x的个数(31)。可以算出它能标识多少个自然字符.它比unicode-16。表示的范围多很多。
又有问题了:看上面的形式,为什么后面的字节前两位固定为10呢?当前两位固定为10,则范围就是:80-bf.与前用连续1的个数来确定字节数是一个完美的体系。
utf-8编码的最大特点:做到了最有效的利用存储空间和最有效的表示更大范围.
第一字节用: 0xc0-0xfd.其他字节用:0x80-0xbf.
我们把它们按大小顺序排列就成了: [0x80 -0xbf] [0xc0-0xfd] 这刚好是一段连续的空间.也就是ASCII没有用到的那一段范围.
那为什么只用到:0x80-0xfd这一段范围,而FE,FF这两个编码没有用呢? 因为FF,FE被unicode-16先占用了.若一个文本文档,用二进制查看方式查看,若文件的最前面两个字节是:FF FE或FE FF。则表示本文档是unicode-16编码.

可以编入所有可能的 231个 UCS 代码

UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.

Bigendian UCS-4 字节串的排列顺序是预定的.

字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.

下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号.
Java代码
U-00000000 - U-0000007F:
0xxxxxxx
U-00000080 - U-000007FF:
110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF:
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF:
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:

11000010 10101001 = 0xC2 0xA9

而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:

11100010 10001001 10100000 = 0xE2 0x89 0xA0

这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.

什么编程语言支持 Unicode?

在大约 1993 年之后开发的大多数现代编程语言都有一个特别的数据类型, 叫做 Unicode/ISO 10646-1 字符. 在 Ada95 中叫 Wide_Character, 在 Java 中叫 char.

ISO C 也详细说明了处理多字节编码和宽字符 (wide characters) 的机制, 1994 年 9 月 Amendment 1 to ISO C 发表时又加入了更多. 这些机制主要是为各类东亚编码而设计的, 它们比处理 UCS 所需的要健壮得多. UTF-8 是 ISO C 标准调用多字节字符串的编码的一个例子, wchar_t 类型可以用来存放 Unicode 字符. 
UTF-8(Unicode Transformation Format - 8-bit)是一种针对Unicode的可变长度字符编码方式,广泛用于互联网和现代操作系统中。它能够表示所有Unicode字符集中的字符,同时保持与ASCII编码的兼容性,这使得UTF-8成为全球最常用的字符编码之一。 ### UTF-8 编码原理 UTF-8编码的核心思想是将Unicode码点(code point)转换为1到4个字节的序列,具体取决于字符的Unicode值。以下是UTF-8编码的基本规则: 1. **ASCII字符(U+0000 到 U+007F)**:这些字符在UTF-8中直接使用单个字节表示,与ASCII编码完全一致。例如,字符“A”(U+0041)在UTF-8中表示为`0x41`。 2. **多字节字符(U+0080 及以上)**:对于非ASCII字符,UTF-8使用一种前缀编码机制来表示。每个字节的高位部分用于标识该字符的编码长度以及当前字节的角色(起始字节或后续字节)。具体来说: - 2字节序列:用于表示U+0080到U+07FF范围内的字符。起始字节以`110xxxxx`的形式开头,后续字节以`10xxxxxx`的形式表示。 - 3字节序列:用于表示U+0800到U+FFFF范围内的字符。起始字节以`1110xxxx`的形式开头,后续两个字节均以`10xxxxxx`的形式表示。 - 4字节序列:用于表示U+10000到U+10FFFF范围内的字符。起始字节以`11110xxx`的形式开头,后续三个字节均以`10xxxxxx`的形式表示。 例如,字符“汉”(U+6C49)属于U+0800到U+FFFF范围,因此使用3字节序列进行编码。其二进制表示为`01101100 01001001`,拆分为三部分后,分别填充到3字节模板中,最终得到`11100110 10110001 10001001`,对应的十六进制为`E6 B1 89`。 ### UTF-8 的使用方法 UTF-8编码在实际应用中非常灵活,适用于多种编程语言和系统环境。以下是几种常见的使用场景: #### 1. **在编程语言中处理UTF-8** 大多数现代编程语言都内置了对UTF-8的支持。以下是一些常见编程语言中处理UTF-8的示例: - **Python**:Python 3默认使用UTF-8编码处理字符串。可以通过`encode()`方法将字符串编码UTF-8字节序列,通过`decode()`方法将字节序列解码为字符串。 ```python text = "你好,世界" utf8_bytes = text.encode('utf-8') # 编码UTF-8字节 decoded_text = utf8_bytes.decode('utf-8') # 解码回字符串 ``` - **JavaScript**:在Node.js环境中,可以使用`Buffer`对象来处理UTF-8编码。 ```javascript const text = "你好,世界"; const buffer = Buffer.from(text, 'utf-8'); // 编码UTF-8字节 const decodedText = buffer.toString('utf-8'); // 解码回字符串 ``` - **Java**:Java中的`String`类提供了`getBytes()`方法用于将字符串编码为指定的字符集,`new String()`构造函数可用于解码字节数组。 ```java String text = "你好,世界"; byte[] utf8Bytes = text.getBytes(StandardCharsets.UTF_8); // 编码UTF-8字节 String decodedText = new String(utf8Bytes, StandardCharsets.UTF_8); // 解码回字符串 ``` #### 2. **在网络传输中使用UTF-8** HTTP协议中,UTF-8常用于传输文本数据。服务器和客户端可以通过设置`Content-Type`头字段来指定使用的字符编码。例如: ``` Content-Type: text/html; charset=UTF-8 ``` 这表明发送的内容是HTML文档,并且使用UTF-8编码进行传输。 #### 3. **在文件操作中使用UTF-8** 处理文本文件时,确保文件内容以UTF-8编码保存和读取是非常重要的。以下是一些常见的文件操作示例: - **Python**:在打开文件时指定`encoding='utf-8'`参数。 ```python with open('example.txt', 'w', encoding='utf-8') as f: f.write("你好,世界") with open('example.txt', 'r', encoding='utf-8') as f: content = f.read() ``` - **Java**:使用`InputStreamReader`和`OutputStreamWriter`来指定字符编码。 ```java try (BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("example.txt"), StandardCharsets.UTF_8))) { String line; while ((line = reader.readLine()) != null) { System.out.println(line); } } try (BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream("example.txt"), StandardCharsets.UTF_8))) { writer.write("你好,世界"); } ``` ### 总结 UTF-8编码因其高效、兼容性强和广泛支持的特点,成为了现代软件开发和网络通信中最常用的字符编码方式。无论是在编程语言中处理字符串、在网络传输中传递数据,还是在文件操作中读写内容,UTF-8都能提供一致且可靠的编码支持。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值