关于字符集的一些知识-优快云博客

博客介绍了UTF-8编码知识，它对不同字符编码占用空间不同且有标志位，常用于邮件客户端和服务器通讯。还阐述了GB、BIG5、GBK、Unicode等字符集基本概念，最后说明了软件决定文本字符集和编码的三种方式，以及通过检测文件头标识判断编码的方法。

1.utf8的知识

utf8对不同的字符编码时占用的空间是不同的。在实现统一编码的同时，在某些情况(例如英文)下,可以相对其他统一编码的字符集(如unicode)节省空间,utf8常用于邮件客户端和服务器的通讯中

因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来，而一个字节就是八位，所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成？它有可能是英文字母的一个字节，也有可能是汉字的三个字节中的一个字节！所以，UTF8是有标志位的！

当要表示的内容是　7位　的时候就用一个字节：0*******　第一个0为标志位，剩下的空间正好可以表示ASCII　0－127　的内容。

当要表示的内容在　8　到　11　位的时候就用两个字节：110***** 10******　第一个字节的110和第二个字节的10为标志位。

当要表示的内容在　12　到　16　位的时候就用三个字节：1110***** 10****** 10****** 　　　和上面一样，第一个字节的1110和第二、三个字节的10都是标志位，剩下的空间正好可以表示汉字。

以此类推：
四个字节：11110**** 10****** 10****** 10******
五个字节：111110*** 10****** 10****** 10****** 10******
六个字节：1111110** 10****** 10****** 10****** 10****** 10******
.............................................
..............................................

参见
http://www.newebug.com/article/cpp/2221.shtml

2.其他一些字符集的基本概念(GB,BIG5,GBK,Unicode)
一、基本概念
·    GB码
全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。P- Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。1990年又制定了繁体字的编码标准GB12345-90 《信息交换用汉字编码字符集第一辅助集》，目的在于规范必须使用繁体字的各种场合，以及古籍整理等。该标准共收录6866个汉字（比GB2312多103个字，其它厂商的字库大多不包括这些字），纯繁体的字大概有2200余个。（2312集与12345集不是相交的。一个是简体，一个是繁体）

·    BIG5编
是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准，包括440个符号，一级汉字5401个、二级汉字7652个，共计13060个汉字。Big-5 是一个双字节编码方案，其第一字节的值在 16 进制的 A0～FE 之间，第二字节在 40～7E 和 A1～FE 之间。因此，其第一字节的最高位是 1，第二字节的最高位则可能是 1，也可能是 0。

·    GBK编码(Chinese Internal Code Specification)
GBK 编码（俗称大字符集）是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK，通过GBK与UCS之间一一对应的码表与底层字库联系。其第一字节的值在 16 进制的 81～FE 之间，第二字节在 40～FE，除去xx7F一线。
确定编码是GBK编码的方法：
(0x81<=char1<=0xFE) && (0x40<=char2<=0x7E || 0x7E<=char2<=0xFE)

·    Unicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与 ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留 20249个，共计65534个。

·    UCS2编码, Unicode编码的子集

参见
http://blog.youkuaiyun.com/i_like_cpp/archive/2005/03/16/320606.aspx

3.字符集检测

n当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码：
检测文件头标识，提示用户选择，根据一定的规则猜测
最标准的途径是检测文本最开头的几个字节，开头字节 Charset/encoding,如下表：
EF BB BF　　　 UTF-8
FE FF　　　　　UTF-16/UCS-2, little endian
FF FE　　　　　UTF-16/UCS-2, big endian
FF FE 00 00　　 UTF-32/UCS-4, little endian.
00 00 FE FF　　 UTF-32/UCS-4, big-endian.

参见
http://www.cnblogs.com/zyk/archive/2004/11/17/64747.aspx