FileReader读取文件,由于不确定源文件的编码格式不同，导致读出的文件乱码的问题

最新推荐文章于 2024-11-24 21:25:30 发布

kodeLove

最新推荐文章于 2024-11-24 21:25:30 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： java

本文链接：https://blog.youkuaiyun.com/kodeyang/article/details/9492023

java 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了如何利用Apache Commons IO中的IOUtils类进行文件读取，特别关注了如何处理不同编码格式之间的转换，避免了在读取文件过程中因编码不一致导致的乱码问题。通过实例演示了获取文件流、转化为字节数组、判断文件编码并正确还原文件内容的方法，有效解决了文件编码转换的困扰。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

直接上代码：

[java]view plaincopy 
   
 package org.bruce.file.handle.experiment;  
   
 import java.io.File;  
 import java.io.FileInputStream;  
   
 import org.apache.commons.io.IOUtils;  
   
 /** 
  * @author user 
  * apache 的 IOUtils 这个类真的很好用~ 
  */  
 public class TestIOUtils {  
       
     public static String _absPath1 = "/Users/user/Novels/txt/猎头.txt";  
   
     /** 
      * @param args 
      */  
     public static void main(String[] args) throws Exception {  
         // TODO Auto-generated method stub  
         File f = new File(_absPath1);  
         FileInputStream fis = new FileInputStream(f);  
           
         // 无损读取，Integer.MAX_VALUE = 21 亿 4748 万 3648 = 2G (Byte)~  
         byte[] bytes = IOUtils.toByteArray(fis);  
           
         System.out.println(bytes.length);  
           
         /** 以下三句代码的效果是相通的~ */  
         String str1 = new String(bytes);    // 按JVM的默认字符集 UTF-8 进行解码~  
 //      String str1 = new String(bytes, 0, bytes.length);   // 同上~  
 //      String str1 = new String(bytes, "UTF-8");  
         System.out.println(str1);  
           
         // 还原编码  
         String str2 = new String(bytes, "GBK");  
         System.out.println(str2);  
     }  
   
 }  

[java]view plaincopy 
   
 org.apache.commons.io.IOUtils  

[java]view plaincopy 
   
 是Apache commons IO 里面的一个工具类  

此类所在的 jar 包可以在这里下载到(只用到部分功能，我动手“精简”了一下)：

http://download.youkuaiyun.com/detail/yang3wei/4163965

参考资料：http://liudeh-009.iteye.com/blog/1312117

读取一个UTF-8编码格式的文件，代码中起初用FileReader读取到一个字符串，然后转换字符集，结果就出问题了：

文件读入时是按OS的默认字符集即GBK解码的，我先用默认字符集GBK编码str.getBytes(“GBK”)，此时应该还原为文件中的字节序列了，

然后再按UTF-8解码，生成的字符串按理说应该就应该是正确的。

为什么结果中还是有部分乱码呢？

问题出在FileReader读取文件的过程中，FileReader继承了InputStreamReader，但并没有实现父类中带字符集参数的构造函数，

所以FileReader只能按系统默认的字符集来解码，然后在UTF-8 -> GBK -> UTF-8的过程中编码出现损失，造成结果不能还原最初的字符。

之前还碰到过一个问题，读取一个别人上传的文件，本来约束是这个文件啊必须是UTF-8的，但是用户上传的文件，却是用GBK

编码的，导致将这个文件流读出，使用时，发现乱码无法真确识别其中信息。

如何解决呢？

首先，我不管源文件是采用什么编码，取得文件流，然后用org.apache.commons.io.IOUtils.toByteArray这个工具类中的API

FileInputStreamstream = new FileInputStream(targetFile);

byte[] bytes = IOUtils.toByteArray(stream);

这样，就将文件流转化成字节数组，并且不丢失字节；然后，每个文件都有一段头信息，描述文件的字符编码，文件大小等等的信息，同一类字符编码的文件，

头几个字节是相同的，可以以此来判断文件的字符编码类型例如：UTF-8的文件，头2个字节，分别是‘-17’和‘-69’,；接着可以用String的带字符集的构造函数，

把文件还原出来。

另外，clps中不单需要读取源代码，还需要修改源代码，这时候，一定要保证编码格式的一致性，我采用的方式，模仿了文件的格式，返回给页面的

是一个文件对象，包含了文件内容实体，字符编码格式等信息，这样保存的时候，就可以得到这些信息。