Java字符编码转换过程说明

本文详细介绍了Java中的字符编码处理方法,包括JVM启动时的系统属性设置、源文件编译时的编码问题、文件读写时的编码转换、数据库访问时的编码处理等。同时,还介绍了不同类型的文件读取、字节数组与字符串之间的转换以及Swing/AWT等GUI组件中的字体映射问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


======================================================
注:本文源代码点此下载
======================================================

jvm

jvm启动后,jvm会设置一些系统属性以表明jvm的缺省区域。

user.language,user.region,file.encoding等。 可以使用system.getproperties()详

细查看所有的系统属性。

如在英文操作系统(如unix)下,可以使用如下属性定义强制指定jvm为中文环境

-dclient.encoding.override=gbk -dfile.encoding=gbk -duser.language=zh

-duser.region=cn

.java-->.class编译

说明:一般javac根据当前os区域设置,自动决定源文件的编码.可以通过-encoding强制

指定.

错误可能:

1 gbk编码源文件在英文环境下编译,javac不能正确转换.曾见于java/jsp在英文unix

下. 检测方法:写\u4e00格式的汉字,绕开javac编码,再在jvm中,将汉字作为int打印,

看值是否相等;或直接以utf-8编码打开.class文件,看看常量字符串是否正确保存汉

字。

文件读写

外部数据如文件经过读写和转换两个步骤,转为jvm所使用字符。

inputstream/outputstream用于读写原始外部数据,reader/writer执行读写和转换两

个步骤。

1 文件读写转换由java.io.reader/writer执行;输入输出流

inputstream/outputstream处理汉字不合适,应该首选使用reader/writer,如

filereader/filewriter。

2 filereader/filewriter使用jvm当前编码读写文件.如果有其它编码格式,使用

inputstreamreader/outputstreamwriter

3 printstream有点特殊,它自动使用jvm缺省编码进行转换。

读取.properties文件

.propeties文件由properties类以iso8859-1编码读取,因此不能在其中直接写汉字,

需要使用jdk 的native2ascii工具转换汉字为\uxxxx格式。命令行:native2ascii –

encoding gbk inputfile outputfile

读取xml文件

1 xml文件读写同于文件读写,但应注意确保xml头中声明如与文件编码保持一致。

2 javax.xml.saxparser类接受inputstream作为输入参数,对于reader,需要用

org.xml.sax.inputsource包装一下,再给saxparser。

3 对于utf-8编码 xml,注意防止编辑器自动加上\ufffe bom头, xml parser会报告

content is not allowed in prolog。

字节数组

1 使用 new string(bytearray,encoding) 和string.getbytes(encoding)在字节

数组和字符串之间进行转换

也可以用bytearrayinputstream/bytearrayoutputstream转为流后再用

inputstreamreader/outputstreamwriter转换。

错误编码的字符串(iso8859-1转码gbk)

如果我们得到的字符串是由错误的转码方式产生的,例如:对于gbk中文,由iso8859-1

方式转换,此时如果用调试器看到的字符串一般是 的样子,长度一般为文本的字节长

度,而非汉字个数。

可以采用如下方式转为正确的中文:

text = new string( text.getbytes(“iso8859-1”),”gbk”);

jdbc

转换过程由jdbc driver执行,取决于各jdbc数据库实现。对此经验尚积累不够。

1 对于oracle数据库,需要数据库创建时指定编码方式为gbk,否则会出现汉字转码错

2 对于 sql server 2000 ,最好以nvarchar/nchar类型存放文本,即不存在中文/编码

转换问题。

3 连接 mysql,将 connectionstring 设置成 encoding 为 gb2312:

string connectionstring=

"jdbc:mysql://localhost/test?useunicode=true&characterencoding=gb2312";

web/servlet/jsp

1 对于jsp,确定头部加上 这

样的标签。

2 对于servlet,确定 设置setcontenttype (“text/html; charset=gb2312”),以上

两条用于使得输出汉字没有问题。

3 为输出html head中加一个,让浏览器正确确定html编码。

4 为web应用加一个filter,确保每个request明确调用setcharacterencoding方法,让

输入汉字能够正确解析。

import java.io.ioexception;

import javax.servlet.filter;

import javax.servlet.filterchain;

import javax.servlet.filterconfig;

import javax.servlet.servletexception;

import javax.servlet.servletrequest;

import javax.servlet.servletresponse;

import javax.servlet.unavailableexception;

import javax.servlet.http.httpservletrequest;

/**

* example filter that sets the character encoding to be used in parsing the

* incoming request

*/

public class setcharacterencodingfilter

implements filter {

public setcharacterencodingfilter()

{}

protected boolean debug = false;

protected string encoding = null;

protected filterconfig filterconfig = null;

public void destroy() {

this.encoding = null;

this.filterconfig = null;

}

public void dofilter(servletrequest request, servletresponse response,

filterchain chain) throws ioexception,

servletexception {

//if (request.getcharacterencoding() == null)

//{

//string encoding = getencoding();

//if (encoding != null)

//request.setcharacterencoding(encoding);

//

//}

request.setcharacterencoding(encoding);

if ( debug ){

system.out.println(

((httpservletrequest)request).getrequesturi()+"setted to "+encoding );

}

chain.dofilter(request, response);

}

public void init(filterconfig filterconfig) throws servletexception {

this.filterconfig = filterconfig;

this.encoding = filterconfig.getinitparameter("encoding");

this.debug = "true".equalsignorecase(

filterconfig.getinitparameter("debug") );

}

protected string getencoding() {

return (this.encoding);

}

}

web.xml中加入:

localencodingfilter

localencodingfilter

com.ccb.ectipmanager.request.setcharacterencodingfilter

encoding

gb2312

debug

false

localencodingfilter

/*

5 用于weblogic(vedor-specific):

其一:在web.xml里加上如下脚本:

weblogic.httpd.inputcharset./*

gbk

其二(可选)在weblogic.xml里加上如下脚本:

/*

gbk

swing/awt/swt

对于swing/awt,java会有些缺省字体如dialog/san serif,这些字体到系统真实字体

的映射在$jre_home/lib/font.properties.xxx文件中指定。排除字体显示问题时,首

先需要确定jvm的区域为zh_cn,这样font.properties.zh_cn文件才会发生作用。对于

font.properties.zh_cn , 需要检查是否映射缺省字体到中文字体如宋体。

在swing中,java自行解释ttf字体,渲染显示;对于awt,swt显示部分交由操作系统。

首先需要确定系统装有中文字体。

1 汉字显示为”□”,一般为显示字体没有使用中文字体,因为java对于当前字体显示

不了的字符,不会像windows一样再采用缺省字体显示。

2 部分不常见汉字不能显示,一般为显示字库中汉字不全,可以换另外的中文字体试

试。

3 对于awt/swt,首先确定jvm运行环境的区域设置为中文,因为此处设计jvm与操作系

统api调用的转换问题,再检查其它问题。

jni

jni中jstring以utf-8编码给我们,需要我们自行转为本地编码。对于windows,可以采

用widechartomultibyte/multibytetowidechar函数进行转换,对于unix,可以采用

iconv库。

这里从sun jdk 1.4 源代码中找到一段使用jvm string 对象的getbytes的转换方式,

相对简单和跨平台,不需要第三方库,但速度稍慢。函数原型如下:

/* convert between java strings and i18n c strings */

jniexport jstring

newstringplatform(jnienv *env, const char *str);

jniexport const char *

getstringplatformchars(jnienv *env, jstring jstr, jboolean *iscopy);

jniexport jstring jnicall

jnu_newstringplatform(jnienv *env, const char *str);

jniexport const char * jnicall

jnu_getstringplatformchars(jnienv *env, jstring jstr, jboolean *iscopy);

jniexport void jnicall

jnu_releasestringplatformchars(jnienv *env, jstring jstr, const char *str);

附件jni_util.h,jni_util.c

tuxedo/jolt

jolt对于传递的字符串需要用如下进行转码

new string(ls_tt.getbytes("gbk"),"iso8859-1")

对于返回的字符串

new string(error_message.getbytes("iso8859-1"),"gbk");

jolt 的系统属性 bea.jolt.encoding不应该设置,如果设置,jsh会报告说错误的协议.

jdk1.4/1.5新增部分

字符集相关类(charset/charsetencoder/charsetdecoder)

jdk1.4开始,对字符集的支持在java.nio.charset包中实现。

常用功能:

1 列出jvm所支持字符集:charset.availablecharsets()

2 能否对看某个unicode字符编码,charsetencoder.canencode()

unicode surrogate/cjk ext b

unicode 范围一般所用为\u0000-\uffff范围,jvm使用1个char就可以表示,对于cjk

ext b区汉字,范围大于\u20000,则需要采用2个char方能表示,此即unicode

surrogate。这2个char的值范围 落在character.surrogate 区域内,用

character.gettype()来判断。

jdk 1.4尚不能在swing中正确处理surrogate区的unicode字符,jdk1.5可以。对于cjk

ext b区汉字,目前可以使用的字库为”宋体-方正超大字符集”,随office安装。

常见问题

在jvm下,用system.out.println不能正确打印中文,显示为???

system.out.println是printstream,它采用jvm缺省字符集进行转码工作,如果jvm的

缺省字符集为iso8859-1,则中文显示会有问题。此问题常见于unix下,jvm的区域没有

明确指定的情况。

在英文unix环境下,用system.out.println能够正确打印汉字,但是内部处理错误

可能是汉字在输入转换时,就没有正确转码:

即gbk文本à(iso8859-1转码)àjvm char(iso8859-1编码汉字)à (iso8859-1转码)à

输出。

gbk汉字经过两次错误转码,原封不动的被传递到输出,但是在jvm中,并未以正确的

unicode编码表示,而是以一个汉字字节一个char的方式表示,从而导致此类错误。

gb2312-80,gbk,gb18030-2000 汉字字符集

gb2312-80 是在国内计算机汉字信息技术发展初始阶段制定的,其中包含了大部分常用

的一、二级汉字,和 9 区的符号。该字符集是几乎所有的中文系统和国际化的软件都

支持的中文字符集,这也是最基本的中文字符集。其编码范围是高位0xa1-0xfe,低位

也是 0xa1-0xfe;汉字从 0xb0a1 开始,结束于 0xf7fe;

gbk 是 gb2312-80 的扩展,是向上兼容的。它包含了 20902 个汉字,其编码范围是

0x8140-0xfefe,剔除高位 0x80 的字位。其所有字符都可以一对一映射到 unicode 2.

0,也就是说 java 实际上提供了 gbk 字符集的支持。这是现阶段 windows 和其它一

些中文操作系统的缺省字符集,但并不是所有的国际化软件都支持该字符集,感觉是他

们并不完全知道 gbk 是怎么回事。值得注意的是它不是国家标准,而只是规范。随着

gb18030-2000国标的发布,它将在不久的将来完成它的历史使命。

gb18030-2000(gbk2k) 在 gbk 的基础上进一步扩展了汉字,增加了藏、蒙等少数民族

的字形。gbk2k 从根本上解决了字位不够,字形不足的问题。它有几个特点,

它并没有确定所有的字形,只是规定了编码范围,留待以后扩充。

编码是变长的,其二字节部分与 gbk 兼容;四字节部分是扩充的字形、字位,其编码

范围是首字节 0x81-0xfe、二字节0x30-0x39、三字节 0x81-0xfe、四字节0x30-0x39。

utf-8/utf-16/utf-32

utf,即unicode transformer format,是unicode代码点(code point)的实际表示方

式,按其基本长度所用位数分为utf-8/16/32。它也可以认为是一种特殊的外部数据编

码,但能够与unicode代码点做一一对应。

utf-8是变长编码,每个unicode代码点按照不同范围,可以有1-3字节的不同长度。

utf-16长度相对固定,只要不处理大于\u200000范围的字符,每个unicode代码点使用

16位即2字节表示,超出部分使用两个utf-16即4字节表示。按照高低位字节顺序,又分

为utf-16be/utf-16le。

utf-32长度始终固定,每个unicode代码点使用32位即4字节表示。按照高低位字节顺

序,又分为utf-32be/utf-32le。

utf编码有个优点,即尽管编码字节数不等,但是不像gb2312/gbk编码一样,需要从文

本开始寻找,才能正确对汉字进行定位。在utf编码下,根据相对固定的算法,从当前

位置就能够知道当前字节是否是一个代码点的开始还是结束,从而相对简单的进行字符

定位。不过定位问题最简单的还是utf-32,它根本不需要进行字符定位,但是相对的大

小也增加不少。

关于gcj jvm

gcj并未完全依照sun jdk的做法,对于区域和编码问题考虑尚不够周全。gcj启动时,

区域始终设为en_us,编码也缺省为iso8859-1。但是可以用reader/writer做正确编码


======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值