Unicode编码（书摘）_书图片的unicode编码-优快云博客

本文介绍了Unicode编码的基本概念，包括其设计目的、编码方式及实现方法。探讨了16位编码空间如何满足多数语言需求，并介绍了未来扩展计划。同时，文中详细解释了UTF-8等编码的压缩原理及其应用场景。

有必要了解一下，呵呵，收摘——

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

1.编码方式
使用16位的编码空间。也就是每个字符占用2个字节。
理论上一共最多可以表示 65,536(2的16次方) 个字符。基本满足各种语言的使用。
未来版本，扩充到每个字符占用3个字节，乃至4个字节。

2.实现方式
不同系统平台，需要对Unicode转换格式，即为实现方式。

例如，如果一个仅包含基本7位ASCII字符的 Unicode 文件，如果每个字符都使用2字节的原 Unicode 编码传输，其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况，可以使用 UTF-8 编码，这是一种变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他 Unicode 字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大大节省了编码长度（具体方案参见UTF-8）。

目前通用的实现方式是 UTF-16小尾序（BOM）、UTF-16大尾序（BOM）和 UTF-8。在微软公司Windows XP操作系统附带的记事本中，“另存为”对话框可以选择的四种编码方式除去非 Unicode 编码的 ANSI 外，其余三种“Unicode”、“Unicode big endian”和“UTF-8”即分别对应这三种实现方式。