java gbk编码_java GBK UTF-8编码与自动识别与统一(乱码问题)

本文讲述了在处理TXT文件时遇到的乱码问题,主要是由于不同编码(GBK和UTF-8)导致的。作者通过Java代码实现了一种方法,用于检测并转换文件编码,确保文本正常显示。最后提到了将转换后的文件导入印象笔记的问题,以及希望有解决方案来优化这一过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天用印象笔记导我的一些笔记(txt的,我的系统是windows),发现标题都是txt的第一行,而且还有的是乱码。据说只有MAC下的印象笔记才有以txt文件名为标题的功能,我的心情就像我家门前的那条小河一样很难过……我决定对文本处理一下。

之所以遇到乱码问题,是因为有的txt是gbk的,有的是UTF-8的(我随手记的东西,有的是用安卓dropbox写的,有的是windows notepad写的,还有linux 下用gedit写的,所以都用的默认编码),可以说这堆破玩儿意堆得很我们那破寝室外面垃圾桶里的垃圾一样杂乱无章。所以必须能识别文本是什么编码才行。

UTF-8中文是3字节的,GBK中文是2字节的(在UE下的hex模式就能看出,按ctrl+h),有的UTF-8会用EF BB BF 来标明这个是UTF-8的文件,我考虑实用,用如下语句测试:

1

FileInputStream fileInputStream=new FileInputStream(file);

2

InputStreamReader inputStreamReader=new InputStreamReader(fileInputStream,"GB2312" );

3

BufferedReader bufferedReader=new BufferedReader(inputStreamReader);

4

String line =bufferedReader.readLine();

5

System. out.println(java.nio.charset.Charset. forName("GB2312").newEncoder().canEncode(line));

这个是测试这段字符串的字符集,如果真是GB2312就返回true,否则就是false。不信你试试,反正我是信了……

开始我就真的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值