<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
content="text/html; charset=iso-8859-1"
charset=
字符集:utf-8,unicode(每个符号都用16bits存储),
gbk,gb2312(这2个好像特别为了支持中文,似乎有一个支持繁体)
charset=gb2312" / 和 iso-8859-1" />有什么不同 ?
汉字是双字节的。所谓双字节是指一个双字要占用两个BYTE的位置(即16位),分别称为高位和低位。
中国规定的汉字编码为GB2312,这是强制性的,目前几乎所有的能处理中文的应用程序都支持GB2312。
GB2312包括了一二级汉字和9区符号,高位从0xa1到0xfe,低位也是从0xa1到0xfe,其中,汉字的编码范围为0xb0a1到0xf7fe。
另外有一种编码,叫做GBK,但这是一份规范,不是强制的。GBK提供了20902个汉字,它兼容GB2312,编码范围为0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。
在不久的将来,中国会颁布另一种标准:GB18030-2000(GBK2K)。它收录了藏、蒙等少数民族的字型,从根本上解决了字位不足的问题。注意:它不再是定长的。其二字节部份与GBK兼容,四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81到0xfe,二字节和第四字节从0x30到0x39。
本文不打算介绍Unicode,有兴趣的可以浏览“http://www.unicode.org/”查看更多的信息。Unicode有一个特性:它包括了世界上所有的字符字形。所以,各个地区的语言都可以建立与Unicode的映射关系,而Java正是利用了这一点以达到异种语言之间的转换。
在JDK中,与中文相关的编码有:
表1 JDK中与中文相关的编码列表
编码名称 说明
ASCII 7位,与ascii7相同
ISO8859-1 8-位,与 8859_1,ISO-8859-1,ISO_8859-1,latin1...等相同
GB2312-80 16位,与gb2312,gb2312-1980,EUC_CN,euccn,1381,Cp1381, 1383, Cp1383, ISO2022CN,ISO2022CN_GB...等相同
GBK 与MS936相同,注意:区分大小写
UTF8 与UTF-8相同
GB18030 与cp1392、1392相同,目前支持的JDK很少
在实际编程时,接触得比较多的是GB2312(GBK)和ISO8859-1。
补充:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 说明了他的文字编码(utf-8,unicode(每个符号都用16bits存储))
<meta http-equiv="Content-Language" content="zh-CN" /> 说明了他采用的语言
<meta name="author" content="Csdn" /> 说明了他的作者
<meta name="Copyright" content="Csdn" /> 说明了他的版权
<meta name="description" content="" /> 是对网站的简单描述(主要是被百度这些搜索网站检索的时候用的,非常重要)
<meta content="" name="keywords" /> 说明了本网站的关键字(主要是被百度这些搜索网站检索的时候用的,非常重要)