java 读取文件 乱码

本文通过示例演示了Java中文件读取时如何正确处理编码问题,避免乱码现象。重点介绍了字节流转字符流的过程及源文件编码的重要性。

前言

  我们在开发中经常会遇到java读取文件乱码的问题,也许快速的百度能解决问题,但只有掌握了内部原理,我们才算真正的“解决”掉问题。


示例:

新建一个b.txt文件,只有一个字“卡”,并保存编码格式为gbk

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;

public class TestInputStream{
	
	public static void main(String[] args){
		InputStream is  = null;
		String filename = "C:\\Users\\DELL\\Desktop\\b.txt";
		try {
			is  = new FileInputStream(new File(filename));
			byte[] buffer = new byte[30];
			int length = 0;
			while((length = is.read(buffer)) != -1){
				System.out.print(new String(buffer, 0,  length,"gbk") );
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			if(is!=null){
				try {
					is.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}
}

结果,输出正常



现在我们稍微,改一下程序,将

System.out.print(new String(buffer, 0,  length,"gbk") );

改为

System.out.print(new String(buffer, 0,  length,"utf8") );

编译后,重新运行,我们发现乱码了




分析:

       这个过程中,我们只是修改了字节流转化为字符流的编码方案。

源文件保存编码格式是gbk,我们用gbk,解码,结果正常;

源文件保存编码格式是gbk,我们用utf8,解码,结果乱码;

由此我们得出,java读取文件时,字节流转化为字符流的编码方案取决于源文件的编码方案


扩展:

java在加载属性文件时,经常会出现乱码!不是获取字节流出的错误,而是字节流转化为字符流出的错误!所以,我们将字节流包装一层字符流,并指定源文件的解码方式就可以解决乱码问题。



总结:

1、java读取文件,获取到的二进制流是固定正确的。

2、java读取文件,字节流转化为字符流的编码方案取决于源文件的编码方案。


关于操作系统默认编码,请参考我的另外一篇博文-Dfile.encoding与Charset.defaultCharset()



### Java 文件读写中的字符编码处理 当遇到Java读取GBK格式文件并使用`BufferedReader.readLine()`方法后,在控制台输出乱码的情况时,这通常是因为程序默认使用的字符集与实际文件的字符集不符所引起的。为了确保能够正确地读取和写出带有特定编码(如GBK或UTF-8)的数据而不产生乱码现象,可以采取如下措施: #### 正确配置输入流编码方式 对于读取操作而言,应当通过指定正确的字符集名称作为参数传递给`InputStreamReader`构造函数来创建对应的读取器实例。例如要以GBK编码读入数据,则应这样编写代码[^1]: ```java FileReader fr = new FileReader(filePath); InputStreamReader isr = new InputStreamReader(new FileInputStream(filePath), "GBK"); BufferedReader br = new BufferedReader(isr); String line; while ((line = br.readLine()) != null) { System.out.println(line); // 输出每一行的内容至控制台 } br.close(); ``` 这里特别需要注意的是,如果源文件确实是按照GBK编码保存的话,那么上述做法就能有效防止因编码差异而导致的乱码问题。 #### 设置标准输出流编码 有时候即使已经指定了合适的输入流编码,但在某些环境中仍然可能出现乱码情况,比如Windows命令提示符窗口下的终端可能不会自动识别非ASCII字符。此时可以通过调整JVM启动参数或者修改系统的区域选项等方式改变默认的标准输出编码为GBK或其他适合的形式[^4]。 另外一种解决方案是在程序内部手动更改System.out对象关联的PrintStream的编码属性,但这涉及到更复杂的底层API调用,并且可能会带来兼容性和可移植性的风险,因此一般情况下并不推荐这样做。 #### 编写跨平台友好的应用程序 考虑到不同操作系统之间可能存在不同的默认编码习惯以及用户环境设定上的多样性,开发人员应该尽可能使自己的应用具备良好的跨平台特性。具体来说就是在涉及字符串转换的地方都显式声明所需的字符集名而不是依赖于本地化设置;同时也要注意避免硬编码任何固定长度字节数组表示法因为它们往往只适用于特定类型的单字节或多字节编码体系结构[^3]。 ```java // 将字符串从一种编码形式转化为另一种编码形式 byte[] bytes = originalStr.getBytes("ISO-8859-1"); String convertedStr = new String(bytes, "GBK"); ``` 这种方法利用了一个中间过渡步骤——先将原始字符串序列化成通用的基础拉丁字母表(`ISO-8859-1`)再重新解释为目标编码(`GBK`),从而绕过了直接相互映射过程中潜在的风险点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值