记一次编码的奇异问题

探讨使用Java处理文件内容时遇到的编码问题,详细分析了FileReader与InputStreamReader的区别,以及如何正确处理中文编码避免数据损失。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:时隔一年回来看这个草稿,终于知道当时发生了啥……

原文改:
想用java进行文件内容处理,需要在读到含有特定内容的一行时处理,就用了bw.readLine().equals("xxxx")作为判断条件。讲道理应该是没问题的,可是一直读不到。

刚刚测试:

for (byte b : "  啊啊1  ".getBytes("utf-8")) {
    System.out.print(b);
}

//输出:3232-27-107-118-27-107-118493232

但是读取文件相同的一行内容。

BufferedReader bw = new BufferedReader(new FileReader("path"));
line = bw.readLine();
for (byte b : line.getBytes("utf-8")) {
    System.out.print(b);
}

//输出:3232-17-65-67-17-65-67-17-65-67-17-65-67493232

已知32是ASCII中的空格,49是1。其他的各不相同,终归是中文编码的问题。

问题出在FileReader读取文件的过程中,FileReader继承了InputStreamReader,但并没有实现父类中带字符集参数的构造函数,所以FileReader只能按系统默认的字符集来解码(如果是在IDE运行的,会按照设置的字符集来解码),然后在转码过程中编码出现损失,造成结果不能还原最初的字符。

原因明确了,用InputStreamReader代替FileReader,InputStreamReader isr=new InputStreamReader(new FileInputStream(fileName),“charset”);这样读取文件就会直接用文件的编码解码,不会出现错误。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值