编码方式与实现方式

最新推荐文章于 2023-07-28 19:43:59 发布

原创最新推荐文章于 2023-07-28 19:43:59 发布 · 749 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#存储 #c

Technology Concept 专栏收录该内容

6 篇文章

订阅专栏

字符人们使用的记号，抽象意义上的一个符号。 '1', '中', 'a', '$', '￥', …… 字节计算机中存储数据的单元，一个8位的二进制数，是一个很具体的存储空间。 0x01, 0x45, 0xFA, ……

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：

　　Unicode编码(16进制)　║　UTF-8 字节流(二进制)

　　000000 - 00007F　║　0xxxxxxx

　　000080 - 0007FF　║　110xxxxx 10xxxxxx

　　000800 - 00FFFF　║　1110xxxx 10xxxxxx 10xxxxxx

010000 - 10FFFF　║　11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-16编码以16位无符号整数为单位。（？？）

如果U<0x10000，U的UTF-16编码就是U对应的16位无符号整数（为书写简便，下文将16位无符号整数记作WORD）。

　　如果U≥0x10000，我们先计算U'=U-0x10000，然后将U'写成二进制形式：yyyy yyyy yyxx xxxx xxxx，U的UTF-16编码（二进制）就是：110110yyyyyyyyyy 110111xxxxxxxxxx。

为什么U'可以被写成20个二进制位？Unicode的最大码位是0x10ffff，减去0x10000后，U'的最大值是0xfffff，所以肯定可以用20个二进制位表示。例如：Unicode编码0x20C30，减去0x10000后，得到0x10C30，写成二进制是：0001 0000 1100 0011 0000。用前10位依次替代模板中的y，用后10位依次替代模板中的x，就得到：1101100001000011 1101110000110000，即0xD843 0xDC30。