字符编码

参考:

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://www.cnblogs.com/KevinYang/archive/2010/06/18/1760597.html

http://www.pconline.com.cn/pcedu/empolder/gj/other/0505/616631.html

ASCII

0X00~0X7F 128个字符。 只占用了一个字节后面7位,最高位为奇偶校验位(统一规定为0?)。

非ASCII

有些欧洲国家使用的编码体系,利用了ASCII的最高位,所以可以最多表示256个字符。

0~127表示的符号是一样的,但是126~255不一定一样,比如130在法语中表示

é,但在俄语中表示另一个字符。

在亚洲国家的文字,使用的符号就更多了,汉字就有多达10左右。所以必须使用多个字节表示一个符号。

比如简体中文常见的编码方式是GB2312,用两个字节表示一个汉字。最多可表示256*256=65536.

GBK(K代表扩展的意思)则是在GB2312的基础上加入了对繁体字符等其他非简体字字符。用双字节表示。8140~FEFE,首字节在81-FE之间,尾字节在40~FE之间。

中文繁体Big5


Unicode

是一种所有符号的编码,将世界上所有的符号都纳入其中,每个符号都有一个独一无二的编码。

Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。具体查询unicode.org,或者专门的汉字对应表

unicode只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

比如“严”的unicode是十六进制4E25,转换成二进制(100  1110  0010  0101)

也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。

问题:

1.如何才能区分unicode和ASCII?

2.英文字母只用1个字节表示就OK了,如果unicode同意规定,每个符号用三个或四个字节表示,那么每个英文字母前面都浪费了。

所以出现了unicode的多种存储方式。

UTF8:unicode的实现方式之一

utf8是在互联网上使用最广的一种unicode的实现方式,其他实现方式还包括UTF16和UTF32。

UTF8是一种变长的编码方式,可以使用1~4个字节表示一个符号,根据不同的符号儿变化字节长度。

UTF8编码规则:

1.对于单字节的符号,字节第一位设为0,后面7位为这个符号的unicode码。因此对于英文字母,UTF8编码和ASCII码是相同。

2.对于n(n>1)字节的符号,第一个字节前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10,剩下的没有提及的二进制位,全部为这个符号的unicode码。

比如“严” (100  1110  0010  0101)1110xxxx 10xxxxxx 10xxxxxx->11100100  10111000  10100101


Unicode符号范围             | UTF-8编码方式
(十六进制) |                       (二进制)
-------------------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx   有效编码位:8到11位 用2个字节存储
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx   有效编码位:12到16 用3个字节
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 有效位:17~21用4个字节


Unicode与UTF-8之间的转换

通过上一节的例子,可以看到“严”的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。

在Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击“文件”菜单中的“另存为”命令,会跳出一个对话框,在最底部有一个“编码”的下拉条。

bg2007102801.jpg

里面有四个选项:ANSI,Unicode,Unicode big endian 和 UTF-8。

1)ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版,如果是繁体中文版会采用Big5码)。

2)Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。

3)Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。

4)UTF-8编码,也就是上一节谈到的编码方法。

选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。

7. Little endian和Big endian

上一节已经提到,Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例,Unicode码是4E25,需要用两个字节存储,一个字节是4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。

这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。

因此,第一个字节在前,就是”大头方式“(Big endian),第二个字节在前就是”小头方式“(Little endian)。

那么很自然的,就会出现一个问题:计算机怎么知道某一个文件到底采用哪一种方式编码?

Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做”零宽度非换行空格“(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。

如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。

8. 实例

下面,举一个实例。

打开”记事本“程序Notepad.exe,新建一个文本文件,内容就是一个”严“字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存。

然后,用文本编辑软件UltraEdit中的”十六进制功能“,观察该文件的内部编码方式。

1)ANSI:文件的编码就是两个字节“D1 CF”,这正是“严”的GB2312编码,这也暗示GB2312是采用大头方式存储的。

2)Unicode:编码是四个字节“FF FE 25 4E”,其中“FF FE”表明是小头方式存储,真正的编码是4E25。

3)Unicode big endian:编码是四个字节“FE FF 4E 25”,其中“FE FF”表明是大头方式存储。

4)UTF-8:编码是六个字节“EF BB BF E4 B8 A5”,前三个字节“EF BB BF”表示这是UTF-8编码,后三个“E4B8A5”就是“严”的具体编码,它的存储顺序与编码顺序是一致的。


MORE

字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。

从ASCII,GB2312,GBK到GB18030,这些编码方法是向下兼容的。GB2312,GBK,GB18030都是双字节的,区分中文编码的方法是高字节的最高位不为0;

有的中文windows的缺省内码还是GBK,但是可以通过升级包升级为GB18030.

GB2312的两个字节的最高位都是1

GBK,GB18030最高位是1,但低字节最高位是否为1就不一定。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值