利用第三方的Jar包判别指定文本编码

最新推荐文章于 2025-08-11 13:53:42 发布

最新推荐文章于 2025-08-11 13:53:42 发布 · 191 阅读

文章标签：

11月5日
利用第三方的Jar包判别指定文本编码
原文请查看：http://www.iteye.com/topic/108540，作者是hdwangyi 。

他在帖子中贴出了一段代码来判断一个文本是UTF-8编码的，思路是读取一个txt文件，截取字符流的前3个字符（即标示位），判断是否与UTF-8的格式的标示位一致。

import java.io.*;

public class TestText {
public static void main(String args[]){
File file = new File("C:/1.txt");

try{
InputStream stream = new FileInputStream(file);
byte[] byteArray = new byte[3];

stream.read(byteArray);
stream.close();

if (byteArray[0] == -17 && byteArray[1] == -69 && byteArray[2] == -65)
System.out.println("UTF-8");
else
System.out.println("可能是其他的编码");

}
catch(Exception e){
e.printStackTrace();
}
}
}

但显然这种方式有很大的局限性，而且需要对文件编码有着一定的了解。于是作者用到了第三方的jar包cpdetector，下载地址http://cpdetector.sourceforge.net/。如何在Eclipse中导入jar包，请看http://blog.youkuaiyun.com/justinavril/archive/2008/08/07/2783182.aspx。这个jar包内的类和方法能够准确判断文件的编码格式。

import cpdetector.io.*;
import java.io.*;
import java.nio.charset.*;

public class PageCode {
public static void main(String args[]){

CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
detector.add(JChardetFacade.getInstance());

Charset charset = null;

File f = new File("C:/1.txt");

try {
charset = detector.detectCodepage(f.toURL());
}
catch (Exception e) {
e.printStackTrace();
}
if(charset!=null){
System.out.println(f.getName()+"编码是："+charset.name());
}else
System.out.println(f.getName()+"未知");
}
}

1.txt编码是：GB2312
可以把main函数的相关内容改成一个方法重用，从而达到自由判断文件编码的目的。