记一次编码的奇异问题

最新推荐文章于 2025-03-03 14:18:22 发布

洋222

最新推荐文章于 2025-03-03 14:18:22 发布

阅读量207

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/Nothing_can_do/article/details/90384403

探讨使用Java处理文件内容时遇到的编码问题，详细分析了FileReader与InputStreamReader的区别，以及如何正确处理中文编码避免数据损失。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：时隔一年回来看这个草稿，终于知道当时发生了啥……

原文改：
想用java进行文件内容处理，需要在读到含有特定内容的一行时处理，就用了bw.readLine().equals("xxxx")作为判断条件。讲道理应该是没问题的，可是一直读不到。

刚刚测试：

for (byte b : "  啊啊1  ".getBytes("utf-8")) {
    System.out.print(b);
}

//输出：3232-27-107-118-27-107-118493232

但是读取文件相同的一行内容。

BufferedReader bw = new BufferedReader(new FileReader("path"));
line = bw.readLine();
for (byte b : line.getBytes("utf-8")) {
    System.out.print(b);
}

//输出：3232-17-65-67-17-65-67-17-65-67-17-65-67493232

已知32是ASCII中的空格，49是1。其他的各不相同，终归是中文编码的问题。

问题出在FileReader读取文件的过程中，FileReader继承了InputStreamReader，但并没有实现父类中带字符集参数的构造函数，所以FileReader只能按系统默认的字符集来解码（如果是在IDE运行的，会按照设置的字符集来解码），然后在转码过程中编码出现损失，造成结果不能还原最初的字符。

原因明确了，用InputStreamReader代替FileReader，InputStreamReader isr=new InputStreamReader(new FileInputStream(fileName),“charset”);这样读取文件就会直接用文件的编码解码，不会出现错误。