使用字节数组创建String后通过getBytes()得到的数组与创建时不同

最新推荐文章于 2023-11-29 16:14:30 发布

转载最新推荐文章于 2023-11-29 16:14:30 发布 · 591 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/asty9000/article/details/82228418

java 专栏收录该内容

27 篇文章

订阅专栏

本文探讨了在默认UTF-8环境下，字符串创建和字节数组转换的不一致性，解释了多字节编码导致的长度变化，并介绍了如何通过ISO-8859-1等单字节编码解决此问题，以及各种字符集编码的原理和应用。

问题

使用默认编码创建字符串后，通过生成的字符串的getBytes()方法获得的数组与创建时的数组不同。代码如下：

byte[] bytes=new byte[]{-42, -48, -50, -60, -78, -30, -54, -44};

System.out.println(Arrays.toString(bytes));

System.out.println(Arrays.toString(new String(bytes).getBytes()));

前后数组对比如下：

[-42, -48, -50, -60, -78, -30, -54, -44]
[-17, -65, -67, -17, -65, -67, -17, -65, -67, -60, -78, -17, -65, -67, -17, -65, -67, -17, -65, -67]

原因

创建字符串和getBytes时没有传入指定的字符编码，我的环境默认编码是UTF8，之所以出现上面的问题，是因为UTF8是多字节编码，会用一个或多个字节来表示一个一个字符，所以通过getBytes获得的字节数组会比之前的长。所以除非字节数组的所有值都在0-127之间，即UTF8可以用一个字节来表示时，才不会出现前后不一致的问题。比如：

byte[] bytes=new byte[]{127,65,25,0};

System.out.println(Arrays.toString(bytes));

System.out.println(Arrays.toString(new String(bytes).getBytes()));

执行前后结果一致。

解决办法

所以如果想要保持前后一致，需要中间过渡时使用单字节编码的编码格式，比如ISO-8859-1，这样字节数组才不会在中间转化的过程中被修改。这也是ISO-8859-1编码非常重要的一个特性。

小知识：字符集编码

ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。

ASCII编码是由美国人发明，美国的字符不超过255个，所以ASCII编码使用了8bit 即一个字节来存储字符。由于汉字的数量远超255个，所以中国自己发明了一个GB2312编码来表示汉字，一般的汉字使用2个字节，对于一些生僻的汉字则使用更多的字节来表示，当然，GB2313编码是可以兼容ASCII码的。

然后，日本，韩国等等国家也自己发明了一套编码方法，这时候又出现了一个新的问题。如果一篇文章里面，即有中文，又有日文的话，无论使用中文的编码方法还是使用日文的编码方法都会出现乱码。随后，unicode编码便应运而生。unicode编码对文字的编码进行了统一，当然，unicode只是一种编码规范，它有多个版本，常用的unicode编码使用了16位来存储字符，16位的存储空间足以容纳世界上所有书面字符（对于汉字来说，一共有6万多个，只能包含其中的一些常用汉字，所以unicode编码对于汉字的兼容性并不是特别好）。unicode编码兼容了ASCII码，ASCII码转unicode编码时，保持后8位不变，前8位只需要用0去补全即可。

使用了unicode编码后，又有新的问题出现。因为unicode编码是用两个字节来存储字符，如果一篇文章中，大部分都是英文，使用unicode编码就会造成空间的浪费，对英文部分使用ASCII码只需要一个字节就可以了。这时候，utf-8解决了这个问题。utf-8是一种可变长的字符编码，当存储英文时只使用一个字节，节省了一半的空间，而存储中文字符时，长度还是不变。utf-8虽然压缩了存储空间，但是如果在内存中存储，使用utf-8却由于它的长度不固定，带来了很大的不便，使得在内存处理字符变得复杂。应对这个问题的解决策略是：在内存中存储字符时还是使用unicode编码，因为unicode编码的长度固定，处理起来很方便。而在文件的存储中，则使用utf-8编码，可以压缩内存，节省空间。这里一般有个自动转换的机制，即从文件中读取utf-8编码到内存时，会自动转换为unicode编码，而从内存中将字符保存到文件时，则自动转换为utf-8编码。

这样一来，我们的问题就浮现了，我们的字节数组，转为utf-8字符串后，内部的字节已经发生了变化，utf-8会用多个字节去表示一个字符，所以字节数组长度发生了改变。

参考：

https://blog.youkuaiyun.com/asty9000/article/details/82228418

https://blog.youkuaiyun.com/qq_33543634/article/details/88740524

https://baike.baidu.com/item/ISO-8859-1/7878872?fr=aladdin