以下内容:我仅以我的实际经验为准做的猜测性分析,当中有些内容可能和真实的技术实现不同或有错,敬请指出,谢谢!
我这里想分享一个关于乱码问题的探究和尚待完善的解决方案!
故事是这样开始的,一天,我通过项目的java代码调用linux的shell,比如:ssh admin@104.218.139.40:/export1/servers/nginx.sh , 脚本不存在,我得到了错误提示,但是错误提示是乱码。
为什么是乱码呢,我查看了我们的底层代码,发现 InputStreamReaderThread.java 的run方法,是把shell脚本调用的返回流用UTF-8解码。
乱码产生的根本原因是编码字符集和解码字符集不一致。
既然UTF-8解码有乱码,那么肯定是编码不是用UTF-8的,那么在这个交互过程中,编码的字符集由什么决定呢?
我查看了Java创建Process对象的相关文档,其中有说到,Process对象在创建的时候,如果不显式指定env,会从其父进程(JVM进程)获取环境参数(参考:http://tech.hexun.com/2009-06-08/118437291.html),
这些环境变量中,就有决定Process子进程在向linux发送命令时,申明自己的charset,这个charset就是JVM的defaultCharset,比如LANG=zh_CN.GBK, 所以在java代码中调用Charset.getDefaultCharset得到的
字符集,就是和linux shell交互时的字符集,只有保证了这个字符集也为UTF-8,那么就不会显示乱码了。
小结:JVM的defaultCharset要设置为UTF-8。那么怎么设置呢,有绝对能控制defaultCharset的方法吗?
回答:据我的了解,JVM的启动参数中没有能直接设置JVM defualtCharset的方法,JVM的defaultCharset是jvm内部逻辑代码根据jvm所在物理机器的locale和其他一些区域信息设置默认值的,比如我们安装一台机器,我们选的语言是中文,我们选的国家是中国,我们选的区域是中国上海,可能JVM的内部逻辑就猜测这个机器要用GBK编码,于是,该JVM的defaultCharset就定位GBK了。
据我实际的测试,能在大部分情况下保证 Charset.getDefaultCharset返回的是UTF-8:
1:设置JVM启动项:-Dfile.encoding=UTF-8
2:设置JVM启动项:-Duser.language=en
3:设置JVM启动项:-D user.country=US
Java code:
System. getenv ():
Result:
Windows:
{java.vm.version=20.9-b04, shared.loader=, java.vm.vendor=Sun Microsystems Inc., user.country=CN, sun.os.patch.level=Service Pack 1, java.vm.specification.name=Java Virtual Machine Specification,
os.name=Windows 7, sun.jnu.encoding=GBK, java.library.path=C:\Program Files\Java\jdk1.6.0_34\bin;C:\Windows\Sun\Java\bin;C:\Windows\system32;C:\Windows; user.timezone=Asia/Shanghai, , java.home=C:\Program Files\Java\jdk1.6.0_34\jre, sun.arch.data.model=32, user.language=zh, java.specification.vendor=Sun Microsystems Inc., awt.toolkit=sun.awt.windows.WToolkit, java.vm.info=mixed mode, java.version=1.6.0_34, file.encoding= GBK }
Linux:
{TERM=xterm,…..SSH_CONNECTION=104.218.134.25 56047 104.218.139.42 22, LD_LIBRARY_PATH=/java/jdk1.6.0_26/jre/lib/i386/server:/java/jdk1.6.0_26/jre/lib/i386:/java/jdk1.6.0_26/jre/../lib/i386, SHELL=/bin/bash…JRE_HOME=/java/jdk1.6.0_26/jre, USER=admin, CATALINA_HOME=/export/servers/tomcat6.0.33, HOME=/home/admin, JAVA_BIN=/export/servers/jdk1.6.0_25/bin, LESSOPEN=|/usr/bin/lesspipe.sh %s, LS_COLORS=no=00:fi=00:di=00;34:ln=00;36:pi=40;33:so=00;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=00;32:*.cmd=00;32:*.exe=00;32:*.com=00;32:*.btm=00;32:*.bat=00;32:*.sh=00;32:*.csh=00;32:*.tar=00;31:*.tgz=00;31:*.arj=00;31:*.taz=00;31:*.lzh=00;31:*.zip=00;31:*.z=00;31:*.Z=00;31:*.gz=00;31:*.bz2=00;31:*.bz=00;31:*.tz=00;31:*.rpm=00;31:*.cpio=00;31:*.jpg=00;35:*.gif=00;35:*.bmp=00;35:*.xbm=00;35:*.xpm=00;35:*.png=00;35:*.tif=00;35:, LANG=zh_CN.UTF-8, SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass}