字符集解析-优快云博客

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>

content="text/html; charset=iso-8859-1"

charset=

字符集：utf-8,unicode(每个符号都用16bits存储),

gbk,gb2312(这2个好像特别为了支持中文，似乎有一个支持繁体)

charset=gb2312" / 和 iso-8859-1" />有什么不同 ?

汉字是双字节的。所谓双字节是指一个双字要占用两个BYTE的位置（即16位），分别称为高位和低位。

中国规定的汉字编码为GB2312，这是强制性的，目前几乎所有的能处理中文的应用程序都支持GB2312。

        GB2312包括了一二级汉字和9区符号，高位从0xa1到0xfe，低位也是从0xa1到0xfe，其中，汉字的编码范围为0xb0a1到0xf7fe。

         另外有一种编码，叫做GBK，但这是一份规范，不是强制的。GBK提供了20902个汉字，它兼容GB2312，编码范围为0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。

         在不久的将来，中国会颁布另一种标准：GB18030-2000（GBK2K）。它收录了藏、蒙等少数民族的字型，从根本上解决了字位不足的问题。注意：它不再是定长的。其二字节部份与GBK兼容，四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81到0xfe，二字节和第四字节从0x30到0x39。

         本文不打算介绍Unicode，有兴趣的可以浏览“http://www.unicode.org/”查看更多的信息。Unicode有一个特性：它包括了世界上所有的字符字形。所以，各个地区的语言都可以建立与Unicode的映射关系，而Java正是利用了这一点以达到异种语言之间的转换。

在JDK中，与中文相关的编码有：

表1 JDK中与中文相关的编码列表

编码名称说明
ASCII 7位，与ascii7相同
ISO8859-1 8-位，与 8859_1,ISO-8859-1,ISO_8859-1,latin1...等相同
GB2312-80 16位，与gb2312,gb2312-1980,EUC_CN,euccn,1381,Cp1381, 1383, Cp1383, ISO2022CN,ISO2022CN_GB...等相同
GBK 与MS936相同，注意：区分大小写
UTF8 与UTF-8相同
GB18030 与cp1392、1392相同，目前支持的JDK很少

在实际编程时，接触得比较多的是GB2312（GBK）和ISO8859-1。