字符集与编码解析-优快云博客

首先，我们需要理解清楚，字符集和编码是两回事。

我们首先说说字符集。顾名思义，字符集就是字符的集合，例如，所有的英文字母是一个字符集，所有的汉字也是一个字符集，把全世界所有语言的字符放在一起，也构成一个字符集。

给字符集中的每一个字符都分配一个整数编号，建立起字符与整数编号之间的一一对应关系，这样的字符集，我们暂且称为编码字符集。但是，对于同一个字符，不同的字符集所指定的整数编号未必相同。例如“中”这个字，Unicode中，它的编号是0x4e2d，我们可以说“中”是Unicode这个编码字符集中的第0x4e2d个字符。而在编码字符集utf-8中，它的编号是0xe4b8ad。另外，有些字符在不同的编码字符集中却被分配了相同的整数编号，例如应为字母A，在ASCII及Unicode中，他的编码都是0x41。

但是，编码字符集中字符被分配的整数编号，并不一定就是该字符在计算机中存储时所用的值，计算机中存储时使用什么值是有字符集编码规则来决定的。

所谓字符集编码规则，就是指将编码字符集中的字符对应的整数编号，对应到计算机存储的二进制值的规则。有的编码规则简单的将编码字符集中的字符对应的整数编号直接作为其在计算机中的表示形式而存储，例如英文字符集。在几乎所有的字符集编码方案中，英文字母的整数编号与其在计算机中的内部存储的二进制形式都一致。

有的编码方案就不是这样简单的一一对应，而是对整数编号做了变换之后存储到计算机内部存储的。

UTF-8编码规则：对Unicode编码字符集中的整数编号做了变化之后存储到计算机中，以“汉”为例，它的Unicode整数编号为0x6c49，在UTF-8编码规则下，其计算机中的二进制存储形式变成了0xe6b189。

UTF-16编码规则：对Unicode中的前65536个字符不做变换，直接作为计算机存储。以“汉”为例，它的Unicode整数编号是0x6c49，在UTF-16编码规则下，其计算机中的二进制存储形式仍为0x6c49。而对大于65536的字符，使用surrogate pair机制，用4个字节来表示一个字符。

UTF-32编码规则：对所有的Unicode字符均不做变换，直接使用整数编号存储，但是太过于浪费空间。

UCS-2编码规则：对Unicode中的前65536个字符不做变换，直接作为计算机存储。与UTF-16类似，但是对于编号大于65536的字符则没有提供解决办法。

UCS-4编码规则：与UTF-32思想完全一致。