字符编码

最新推荐文章于 2022-06-01 09:48:27 发布

原创最新推荐文章于 2022-06-01 09:48:27 发布 · 698 阅读

0 ·

CC 4.0 BY-SA版权

编码专栏收录该内容

2 篇文章

订阅专栏

参考：

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://www.cnblogs.com/KevinYang/archive/2010/06/18/1760597.html

http://www.pconline.com.cn/pcedu/empolder/gj/other/0505/616631.html

ASCII

0X00~0X7F 128个字符。只占用了一个字节后面7位，最高位为奇偶校验位（统一规定为0？）。

非ASCII

有些欧洲国家使用的编码体系，利用了ASCII的最高位，所以可以最多表示256个字符。

0~127表示的符号是一样的，但是126~255不一定一样，比如130在法语中表示

é，但在俄语中表示另一个字符。

在亚洲国家的文字，使用的符号就更多了，汉字就有多达10左右。所以必须使用多个字节表示一个符号。

比如简体中文常见的编码方式是GB2312，用两个字节表示一个汉字。最多可表示256*256=65536.

GBK(K代表扩展的意思)则是在GB2312的基础上加入了对繁体字符等其他非简体字字符。用双字节表示。8140~FEFE，首字节在81-FE之间，尾字节在40~FE之间。

中文繁体Big5

Unicode

是一种所有符号的编码，将世界上所有的符号都纳入其中，每个符号都有一个独一无二的编码。

Unicode是一个很大的集合，现在的规模可以容纳100多万个符号。具体查询unicode.org，或者专门的汉字对应表。

unicode只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

比如“严”的unicode是十六进制4E25，转换成二进制（100 1110 0010 0101）

也就是说这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。

问题：

1.如何才能区分unicode和ASCII？

2.英文字母只用1个字节表示就OK了，如果unicode同意规定，每个符号用三个或四个字节表示，那么每个英文字母前面都浪费了。

所以出现了unicode的多种存储方式。

UTF8：unicode的实现方式之一

utf8是在互联网上使用最广的一种unicode的实现方式，其他实现方式还包括UTF16和UTF32。

UTF8是一种变长的编码方式，可以使用1~4个字节表示一个符号，根据不同的符号儿变化字节长度。

UTF8编码规则：

1.对于单字节的符号，字节第一位设为0，后面7位为这个符号的unicode码。因此对于英文字母，UTF8编码和ASCII码是相同。

2.对于n（n>1）字节的符号，第一个字节前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10，剩下的没有提及的二进制位，全部为这个符号的unicode码。

比如“严” （100 1110 0010 0101）1110xxxx 10xxxxxx 10xxxxxx->11100100 10111000 10100101

Unicode符号范围 | UTF-8编码方式
(十六进制) | （二进制）
-------------------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx 有效编码位：8到11位用2个字节存储
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 有效编码位：12到16 用3个字节
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 有效位：17~21用4个字节