一般而言,java编译环境里的默认编码环境是gbk。而java被称为双字节编码,其一般通用的编码是utf-16be。
在我们所写的JAVA程序中,字符序列的生成和解读必须按照同一种编码方式,负责会出现错误的结果,即令人讨厌的乱码。下面我们来看一个程序:
import java.io.UnsupportedEncodingException;
public class Jbianma {
public static void main(String[] args) throws UnsupportedEncodingException{
String str1=new String("联通ABC");
System.out.println(str1);
byte[] bytes=str1.getBytes("utf-8");
System.out.println();
for(byte e:bytes)
System.out.print(Integer.toHexString(e&0xff)+" ");
byte[] bytes1=str1.getBytes("gbk");
System.out.println();
for(byte e:bytes1)
System.out.print(Integer.toHexString(e&0xff)+" ");
System.out.println();
byte[] bytes2=str1.getBytes("utf-16be");
System.out.println();
for(byte e:bytes2)
System.out.print(Integer.toHexString(e&0xff)+" ");
System.out.println();
}
}
运行结果如下:
这些结果充分说明了:
utf-8编码里一个中文字符占三个字节,一个英文字符占一个字节;
gbk编码里一个中文字符占两个字节,一个英文字符占一个字节;
utf=16be编码里无论中英文,都是一个字符对应两个字节。