字符编码小结

最新推荐文章于 2025-05-27 14:49:34 发布

原创最新推荐文章于 2025-05-27 14:49:34 发布 · 170 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#字符编码

计算机基础知识专栏收录该内容

3 篇文章

订阅专栏

字符编码

一、网页上字符集和字符编码的问题

charset 是字符集，encoding是character encoding、字符编码

在html学习中，遇到了charset这个属性，

而看xml里面出现了encoding这个东西

Content-type: application/xml
<?xml version='1.0' encoding="ISO-10646-UCS-4"?>
text/xml 是忽略encoding的，application/xml 使用encoding的编码方式
常见编码

ASCII/US-ASCII 编码 : 一个字节低七位用来编码，只有128个字符

后续的扩展ASCII编码将最高位也用于编码

ISO-8859 是一系列编码字符集，多用于法语、德语等其他字母文字，其中最常用的是ISO-8859-1

仍是一个字节八位，低七位兼容ASCII码，高位用于其他字母文字

GB-2312 含有常用几千个汉字、拉丁字母、希腊字母等图形符号的中国官方编码 2个字节低位兼容ASCII码(理解成二进制小于128的是ASCII码，大于的是GB-2312中的字符) 编码方案：EUC-CN

GBK GB-2312的扩展版，默认采用EUC-CN编码方案

通常指GBK 就是EUC-CN编码方案和GBK字符集的组合

Big5 大五码，繁体字符集两个字节

Unicode 的字符集是UCS 通用标准字符集，后面有UCS-2、UCS-4

编码方式有

UTF-8 （变长式） 1-4个字节表示一个字符，兼容ASCII ，中文采用3个字节表示

UTF-16 针对于UCS-2,2个或4个字节表示一个字符

UTF-32 对于UCS-4
早期的编码ASCII，GB2312(中文)，GBK(中文)，Big5（繁体）等方案只有默认的编码方式，只有一套从字符到编码字节流的方案，charset、character encoding、code page都是等效的。

上述的几种字符的编码方式都是ANSI，仅仅是名字一样，不同区域的windows系统（控制面板的时钟、语言、区域决定的），locale是简体中文，ANSI编码对应GBK编码，对于Korean(韩文)，ASNI对应的是EUC—KR编码，English（US）区域，ANSI对应的是ASCII编码。

Unicode有多种编码方式UTF-8是最常用的一种(可选择1-4个字节表示字符，对于中文是三个字节表示一个字符，英文是一个字节表示一个字符)，UTF-16(使用2个或4个字节表示一个字符)，所以说中文传输，使用UTF-8编码方式效率不如ANSI编码方式高。

ANSI磁盘占用少，传输快

UTF-8兼容面广，多种语言文字以及网页方便

可能应用使用UTF-8,具体程序内部为了性能提升，以及方便问题转换成UTF-16/32

字符编码开头可以判断UTF-8 UTF-16LE（小端） UTF-16BE（大端）

EF BB BF　UTF-8 (UTF-8是一个字节，不存在大小端的问题 FE FF　UTF-16LE

FF FE　UTF-16BE
{BOM} (Byte Order Mark) 字节顺序标记，出现在文本文件头部，Unicode编码标准中用于标识文件是采用哪种格式的编码。就是上述的EF BB BF 和 FE FF这个东西

首先，XML解析器根据文件的BOM来解析文件；如果没找到BOM，由用XML里的encoding属性指定的编码；如果xml里encoding没指定的话，就默认用utf-8来解析文档。然后又可以推出，BOM和ENCODING都有的话，则以BOM指定的为准。
更详细的编码问题