【我的Java笔记】IO流_操作文本文件存在中文乱码的问题 & 编码和解码

最新推荐文章于 2023-09-24 06:16:07 发布

原创最新推荐文章于 2023-09-24 06:16:07 发布 · 756 阅读

0 ·

CC 4.0 BY-SA版权

JavaSE 专栏收录该内容

55 篇文章

订阅专栏

在Java的IO流操作中，处理包含中文字符的文本文件时常遇到乱码问题。该问题源于编码和解码过程不匹配。编码是将字符串转化为字节数组，解码则是反向过程。以GBK编码为例，中文字符由两个字节表示，若以不同编码读取，可能导致乱码。使用字符流并指定编码格式，如OutputStreamWriter，可以有效避免乱码。因此，推荐在处理文本文件时使用字符流。

在IO流中对文本文件进行操作时，常常其中含有中文字符，而在对含有中文字符的文本文件进行操作时经常会出现乱码的情况出现。

譬如以下这个例子：

import java.io.FileInputStream;
import java.io.IOException;

public class ChineseCopyDemo {
	public static void main(String[] args) throws IOException {

		FileInputStream fis = new FileInputStream("s.txt");

		int by = 0;
		while ((by = fis.read()) != -1) {
			System.out.print((char) by);
		}

		fis.close();
	}
}

如上例子在使用输入流读取s.txt文件时其中的中文字符出现了乱码的情况。

首先看一下编码和解码的问题：

（1）编码：将能看懂的字符串-------------->看不懂的字节数组
public byte[] getBytes(Charset charset) 将字符串转换成字节数组，指定编码格式(字符集)
（2）解码：将看不懂的字节数组------------->能看懂的字符串
public String (byte[] bytes, Charset charset) 通过使用指定的编码格式解码指定的 byte 数组，构造一个新的字符串

例：编码："明天吃排骨"----->字节数组----->二进制数据
解码：二进制数据----->十进制数据----->字节数组----->字符串(构造方式)

import java.io.IOException;
import java.util.Arrays;

public class ChineseCopyDemo {
public static void main(String[] args) throws IOException {
		
		String str = "明天吃排骨" ;
		
		//编码	public byte[] getBytes(Charset charset)
		byte[] bys = str.getBytes("utf-8");	//如果不写编码格式，默认为GBK格式

		System.out.println(Arrays.toString(bys));	//utf-8编码集一个中文对应三个字节
		
		//解码	public String(byte[] bytes, Charset charset)
		String s = new String(bys, "utf-8") ;

		System.out.println(s);
	}
}