1、
ANSI编码不是一个具体的字符集,而是对一些多字节字符集类型的字符集(的集合)的一个总体的称呼,总称。
(Windows)ANSI编码中的每一个代码页值就是对一个具体的多字节字符集类型的字符集的别名。例如,代码页 936 就是Windows系统对简体中文GBK这个字符集的别名。
如果ANSI编码是一个具体的字符集,由于汉字和韩文字符都是它能表示的字符,那么里面写有韩文字符的以(Windows)ASNI 朝鲜语代码页949编码保存的文件再向他写入中文保存文件后再打开发现中文部分显示为乱码,而Unicode字符集是一个具体的字符集,汉字和韩文字符都是它能表示的字符,以Unicode字符集保存的文件里则能同时正确显示汉字和韩文字符。
或者里面写有韩文字符的以(Windows)ASNI 朝鲜语代码页949编码保存的文件改为用(Windows)ASNI 中文代码页936编码保存后再打开该文件应该还是显示正常才对,而事实是会显示乱码。
所以说,ANSI编码不是一个具体的字符集。
如果说ANSI编码是一个具体的字符集,各个代码页是旗下的一个个子字符集,那么这个说法又对吗?
在MBCS下,字符被编码为单字节或双字节。在双字节字符中,第一个字节(即前导字节)表示它和下一个字节将被解释为一个字符。第一个字节来自留作前导字节的代码范围。哪个范围的字节可以用作前导字节取决于所使用的代码页。例如,日文代码页 932 使用 0x81 到 0x9F范围内的字节作为前导字节,而朝鲜语代码页 949 则使用其他范围的字节。
http://blog.youkuaiyun.com/slj0609/article/details/2913146
编码方式
字符有一字节和双字节编码,00
–7F
范围内是第一个字节,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。
之后的双字节中,前一字节是双字节的第一位。总体上说第一字节(即前导字节)的范围是81
–FE
(也就是不含80
和FF
),第二字节的一部分领域在40
–7E
,其他领域在80
–FE
。
具体来说,定义的是下列字节:
范围 | 第1字节 | 第2字节 | 编码数 | 字数 |
---|---|---|---|---|
水准 GBK/1 | A1 –A9 |
A1 –FE |
846 | 717 |
水准 GBK/2 | B0 –F7 |
A1 –FE |
6,768 | 6,763 |
水准 GBK/3 | 81 –A0 |
40 –FE (7F 除外) |
6,080 | 6,080 |
水准 GBK/4 | AA –FE |
40 –A0 (7F 除外) |
8,160 | 8,160 |
水准 GBK/5 | A8 –A9 |
40 –A0 (7F 除外) |
192 | 166 |
用户定义 | AA –AF |
A1 –FE |
564 | |
用户定义 | F8 –FE |
A1 –FE |
65 |