é,但在俄语中表示另一个字符。
在亚洲国家的文字,使用的符号就更多了,汉字就有多达10左右。所以必须使用多个字节表示一个符号。
比如简体中文常见的编码方式是GB2312,用两个字节表示一个汉字。最多可表示256*256=65536.
GBK(K代表扩展的意思)则是在GB2312的基础上加入了对繁体字符等其他非简体字字符。用双字节表示。8140~FEFE,首字节在81-FE之间,尾字节在40~FE之间。
中文繁体Big5
Unicode
是一种所有符号的编码,将世界上所有的符号都纳入其中,每个符号都有一个独一无二的编码。
Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。具体查询unicode.org,或者专门的汉字对应表。
unicode只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
比如“严”的unicode是十六进制4E25,转换成二进制(100 1110 0010 0101)
也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。
问题:
1.如何才能区分unicode和ASCII?
2.英文字母只用1个字节表示就OK了,如果unicode同意规定,每个符号用三个或四个字节表示,那么每个英文字母前面都浪费了。
所以出现了unicode的多种存储方式。
UTF8:unicode的实现方式之一
utf8是在互联网上使用最广的一种unicode的实现方式,其他实现方式还包括UTF16和UTF32。
UTF8是一种变长的编码方式,可以使用1~4个字节表示一个符号,根据不同的符号儿变化字节长度。
UTF8编码规则:
1.对于单字节的符号,字节第一位设为0,后面7位为这个符号的unicode码。因此对于英文字母,UTF8编码和ASCII码是相同。
2.对于n(n>1)字节的符号,第一个字节前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10,剩下的没有提及的二进制位,全部为这个符号的unicode码。
比如“严” (100 1110 0010 0101)1110xxxx 10xxxxxx 10xxxxxx->11100100 10111000 10100101
Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
-------------------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx 有效编码位:8到11位 用2个字节存储
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 有效编码位:12到16 用3个字节
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 有效位:17~21用4个字节
Unicode与UTF-8之间的转换
通过上一节的例子,可以看到“严”的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。
在Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击“文件”菜单中的“另存为”命令,会跳出一个对话框,在最底部有一个“编码”的下拉条。
里面有四个选项:ANSI,Unicode,Unicode big endian 和 UTF-8。
1)ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版,如果是繁体中文版会采用Big5码)。
2)Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。
3)Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。
4)UTF-8编码,也就是上一节谈到的编码方法。
选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。
7. Little endian和Big endian
上一节已经提到,Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例,Unicode码是4E25,需要用两个字节存储,一个字节是4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。
这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。
因此,第一个字节在前,就是”大头方式“(Big endian),第二个字节在前就是”小头方式“(Little endian)。
那么很自然的,就会出现一个问题:计算机怎么知道某一个文件到底采用哪一种方式编码?
Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做”零宽度非换行空格“(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。
如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。
8. 实例
下面,举一个实例。
打开”记事本“程序Notepad.exe,新建一个文本文件,内容就是一个”严“字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存。
然后,用文本编辑软件UltraEdit中的”十六进制功能“,观察该文件的内部编码方式。
1)ANSI:文件的编码就是两个字节“D1 CF”,这正是“严”的GB2312编码,这也暗示GB2312是采用大头方式存储的。
2)Unicode:编码是四个字节“FF FE 25 4E”,其中“FF FE”表明是小头方式存储,真正的编码是4E25。
3)Unicode big endian:编码是四个字节“FE FF 4E 25”,其中“FE FF”表明是大头方式存储。
4)UTF-8:编码是六个字节“EF BB BF E4 B8 A5”,前三个字节“EF BB BF”表示这是UTF-8编码,后三个“E4B8A5”就是“严”的具体编码,它的存储顺序与编码顺序是一致的。
MORE
字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。
从ASCII,GB2312,GBK到GB18030,这些编码方法是向下兼容的。GB2312,GBK,GB18030都是双字节的,区分中文编码的方法是高字节的最高位不为0;
有的中文windows的缺省内码还是GBK,但是可以通过升级包升级为GB18030.
GB2312的两个字节的最高位都是1
GBK,GB18030最高位是1,但低字节最高位是否为1就不一定。