最近准备找工作,所以最近在回顾Java代码写法
看到编码转换的时候,发现我的中文全部变成了锟斤拷锟斤拷锟。。。
把String str=“锟斤拷锟斤拷锟?”;改成String str=“你好”;之后
结果也有一个锟斤拷锟
我有点忘了这个是怎么出来的了(因为注释全部变成了锟斤拷锟斤拷锟)
所以我搜啊搜,搜到这个
锟斤拷?UTF-8与GBK互转,为什么会乱码?
里面的描述:
关键词:可变长编码
想来可能是我一不小心以UTF-8格式打开了文件,然后
就改不回去了
UTF-8打开文件会乱码(中文)的原因是:
文件本来是GBK等固定长度编码方式(即定长)编码的
用UTF-8打开后,英文与数字等不变,中文受到影响
打开后会显示乱码
同样。以GBK编码的字符串的以UTF-8解码之后,
由于变长编码,数据可能会受到破坏
就算UTF-8来编码,字符串不是原来的字符串
对应的GBK解码后的二进制序列也不会是原来的GBK二进制序列
以下是我的程序
乱码的程序
@Test
public void test01() throws Exception {
String str="锟斤拷锟斤拷锟?";
byte[] bs = str.getBytes();//锟斤拷锟斤拷锟斤拷默锟斤拷GBK
System.out.println("bs:"+Arrays.toString(bs));
byte[] bsGBK = str.getBytes("GBK");//锟斤拷锟斤拷锟街达拷小写
System.out.println("bsGBK:"+Arrays.toString(bsGBK));
byte[] bsUTF8 = str.getBytes("UTf-8");//锟斤拷锟斤拷锟街达拷小写
System.out.