使用字节数组创建String后通过getBytes()得到的数组与创建时不同

本文探讨了在默认UTF-8环境下,字符串创建和字节数组转换的不一致性,解释了多字节编码导致的长度变化,并介绍了如何通过ISO-8859-1等单字节编码解决此问题,以及各种字符集编码的原理和应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题

使用默认编码创建字符串后,通过生成的字符串的getBytes()方法获得的数组与创建时的数组不同。代码如下:

byte[] bytes=new byte[]{-42, -48, -50, -60, -78, -30, -54, -44};

System.out.println(Arrays.toString(bytes));

System.out.println(Arrays.toString(new String(bytes).getBytes()));

前后数组对比如下:

  1. [-42, -48, -50, -60, -78, -30, -54, -44]

  2. [-17, -65, -67, -17, -65, -67, -17, -65, -67, -60, -78, -17, -65, -67, -17, -65, -67, -17, -65, -67]

 

原因

创建字符串和getBytes时没有传入指定的字符编码,我的环境默认编码是UTF8,之所以出现上面的问题,是因为UTF8是多字节编码,会用一个或多个字节来表示一个一个字符,所以通过getBytes获得的字节数组会比之前的长。所以除非字节数组的所有值都在0-127之间,即UTF8可以用一个字节来表示时,才不会出现前后不一致的问题。比如:

byte[] bytes=new byte[]{127,65,25,0};

System.out.println(Arrays.toString(bytes));

System.out.println(Arrays.toString(new String(bytes).getBytes()));

执行前后结果一致。

 

解决办法

所以如果想要保持前后一致,需要中间过渡时使用单字节编码的编码格式,比如ISO-8859-1,这样字节数组才不会在中间转化的过程中被修改。这也是ISO-8859-1编码非常重要的一个特性。

 

小知识:字符集编码

ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。

ASCII编码是由美国人发明,美国的字符不超过255个,所以ASCII编码使用了8bit 即一个字节来存储字符。由于汉字的数量远超255个,所以中国自己发明了一个GB2312编码来表示汉字,一般的汉字使用2个字节,对于一些生僻的汉字则使用更多的字节来表示,当然,GB2313编码是可以兼容ASCII码的。

        然后,日本,韩国等等国家也自己发明了一套编码方法,这时候又出现了一个新的问题。如果一篇文章里面,即有中文,又有日文的话,无论使用中文的编码方法还是使用日文的编码方法都会出现乱码。随后,unicode编码便应运而生。unicode编码对文字的编码进行了统一,当然,unicode只是一种编码规范,它有多个版本,常用的unicode编码使用了16位来存储字符,16位的存储空间足以容纳世界上所有书面字符(对于汉字来说,一共有6万多个,只能包含其中的一些常用汉字,所以unicode编码对于汉字的兼容性并不是特别好)。unicode编码兼容了ASCII码,ASCII码转unicode编码时,保持后8位不变,前8位只需要用0去补全即可。

        使用了unicode编码后,又有新的问题出现。因为unicode编码是用两个字节来存储字符,如果一篇文章中,大部分都是英文,使用unicode编码就会造成空间的浪费,对英文部分使用ASCII码只需要一个字节就可以了。这时候,utf-8解决了这个问题。utf-8是一种可变长的字符编码,当存储英文时只使用一个字节,节省了一半的空间,而存储中文字符时,长度还是不变。utf-8虽然压缩了存储空间,但是如果在内存中存储,使用utf-8却由于它的长度不固定,带来了很大的不便,使得在内存处理字符变得复杂。应对这个问题的解决策略是:在内存中存储字符时还是使用unicode编码,因为unicode编码的长度固定,处理起来很方便。而在文件的存储中,则使用utf-8编码,可以压缩内存,节省空间。这里一般有个自动转换的机制,即从文件中读取utf-8编码到内存时,会自动转换为unicode编码,而从内存中将字符保存到文件时,则自动转换为utf-8编码。

    这样一来,我们的问题就浮现了,我们的字节数组,转为utf-8字符串后,内部的字节已经发生了变化,utf-8会用多个字节去表示一个字符,所以字节数组长度发生了改变。

 

参考:

https://blog.youkuaiyun.com/asty9000/article/details/82228418

https://blog.youkuaiyun.com/qq_33543634/article/details/88740524

https://baike.baidu.com/item/ISO-8859-1/7878872?fr=aladdin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值