Unicode

最新推荐文章于 2021-04-29 08:24:16 发布

原创最新推荐文章于 2021-04-29 08:24:16 发布 · 295 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#unicode #编码

其他专栏收录该内容

1 篇文章

订阅专栏

Unicode

UCS-2用两个字节编码，UCS-4用4个字节编码。Unicode以UCS-2标准编码字符时可以编码2的16次方个字符，中文中常用的汉字也就几千个，这对于常用的字符已经够用。但若要编码所有字符，UCS-4才能满足。

目前的Unicode字符分为17组编排，0x0000 至 0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。然而目前只用了少数平面。UCS-4根据最高位为0的最高字节分成27=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。group 0的平面0被称作BMP（Basic Multilingual Plane）。如果UCS-4的前两个字节为全零，那么将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。每个平面有216=65536个码位。Unicode计划使用了17个平面，一共有17×65536=1114112个码位。在Unicode 5.0.0版本中，已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。最常用的是0平面，ASCII码在0平面的开始部分。中日韩统一表意文字在 4E00-9FFF之间。详细的编码表可以看 Unicode字符百科。

UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

UTF-8

UTF-8将一个Unicode代码点拆分为多个代码单元存储，每个代码单元是一个字节。具体的对应关系如下表：

Unicode编码(十六进制)	UTF-8 字节流(二进制)
00000000-0000007F	0xxxxxxx
00000080 - 000007FF	110xxxxx 10xxxxxx
00000800 - 0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

实际上utf-8对于0x10FFFF以后的编码还用不到，因为目前Unicode字符集并没有那么多。对于不同范围的Unicode字符，utf-8的编码长度不同，对于常用的00000000-0000007F。utf-8的一个字节即对应一个字符。相对于utf-16和utf-32更节约空间。

例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89

UTF-16

对于代码点小于0x10000（即0平面的Unicode字符），utf-16与Unicode字符集一一对应，两个字节对应一个一个字符。

对于代码点大于0x10000(即0平面以外的Unicode字符)，utf-16将用四个字节对应一个代码点：110110yyyyyyyyyy 110111yyyyyyyyyy。设要编码代码点为U，U1=U-0x10000。将计算得到的U1转换为二进制代替格式中的y便是utf-16对这个代码点的编码。

例2：Unicode编码0x20C30，减去0x10000后，得到0x10C30，写成二进制是：0001 0000 1100 0011 0000。用前10位依次替代模板中的y，用后10位依次替代模板中的x，就得到：1101100001000011 1101110000110000，即0xD843 0xDC30。

为了将一个字符的UTF-16编码与两个字符的UTF-16编码区分开来，Unicode编码的设计者将0xD800-0xDFFF保留下来，并称为代理区（Surrogate）：

.	.	.
D800－DB7F	High Surrogates	高位替代
DB80－DBFF	High Private Use Surrogates	高位专用替代
DC00－DFFF	Low Surrogates	低位替代

Java采用的就是utf-16编码

UTF-32

utf-32采用四个字节编码Unicode的一个代码点，所以足够表示所有Unicode，不需要转换。

字节序

对于编码后的字符如何存储。如0x1234 ,是12 34 还是34 12？

字节序有两种，分别是“大端”（Big Endian, BE）和“小端”（Little Endian, LE）。

根据字节序的不同，UTF-16可被实现为UTF-16LE或UTF-16BE，UTF-32可被实现为UTF-32LE或UTF-32BE。

Unicode编码	UTF-16LE	UTF-16BE	UTF32-LE	UTF32-BE
0x006C49	49 6C	6C 49	49 6C 00 00	00 00 6C 49
0x020C30	43 D8 30 DC	D8 43 DC 30	30 0C 02 00	00 02 0C 30

计算机如何知道这一系列数字采用哪种方式编码？

Unicode标准建议用BOM（Byte Order Mark）来区分字节序，即在传输字节流前，先传输被作为BOM的字符“零宽无中断空格”。这个字符的编码是FEFF，而反过来的FFFE（UTF-16）和FFFE0000（UTF-32）在Unicode中都是未定义的码位，不应该出现在实际传输中。
下表是各种UTF编码的BOM：

UTF编码	Byte Order Mark (BOM)
UTF-8 without BOM	无
UTF-8 with BOM	EF BB BF
UTF-16LE	FF FE
UTF-16BE	FE FF
UTF-32LE	FF FE 00 00
UTF-32BE	00 00 FE FF

如果想直观的查看不同编码的区别，可以通过记事本或其它编辑器创建多个不同编码（utf-8，utf-16 with BOM，utf-32，ASCII等）的文本文档，先存储一个英语字母，查看每个文件的大小。然后增加一个字母，查看文件大小变化。或者通过某些软件直接读取文本文档的底层代码，转换成十六进制就可以看出不同编码文档开头的不同标识信息。