[转]网页正文抽取中的网页编码字符集自动识别最佳方案

最新推荐文章于 2024-04-03 14:46:32 发布

pengyuanyuankuang

最新推荐文章于 2024-04-03 14:46:32 发布

阅读量162

点赞数

CC 4.0 BY-SA版权

分类专栏：技术文章标签：自动识别网页编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/pengyuanyuankuang/article/details/84411116

技术专栏收录该内容

13 篇文章

订阅专栏

本文介绍了一个基于统计学的字符特征分析方法，用于自动检测网页或文件使用的字符集，相较于IE浏览器自带的字符集猜测功能，其准确率更高。文中详细解释了实现原理，并提供了C#版本的源代码。

转自：http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html　

《比IE准确率更高的自动字符集检测类 UniversalCharDet 》

一是网页或服务器直接报告浏览器，这个页面用的是什么编码。比如HTTP头的content-type属性，页面的charset属性。这个比较容易实现，只要检测这些属性就能知道用的是什么编码。

二是浏览器自动猜测。这个就类似人工智能了。比如有些网页没有写charset属性，那么我们看到页面显示乱码时，就会手动去选择页面编码，发现是乱码，就再换一个，直到显示正常为止。

今天这篇文章要说的就是第二个方法，用程序实现自动猜测页面或文件使用的字符集。具体的原理就是基于统计学的字符特征分析，统计哪些字符是最常见的字符。这个工作Mozilla有专门的文章《A composite approach to language/encoding detection》说明。好了，具体的代码其实Mozilla已经用C++实现了，名字就叫UniversalCharDet，但是我翻遍了Internet也找不到.NET的实现类库，只有Google Code上有Java的翻译代码。没办法，自己翻译成C#的代码吧。
C#实现的源代码：http://code.google.com/p/nuniversalchardet/

PS1.顺便说一下标题，为什么叫比IE更准确，那是因为IE浏览器也自带字符集猜测功能，也有人实现了通过调用IE的接口来猜测字符集的功能类库(http://www.codeproject.com/KB/recipes/DetectEncoding.aspx)，不过我试过，这个接口的准确率也不高，成功猜测几率远低于UniversalCharDet。

PS2.网上流传比较多的是Nchardet，这个是基于mozilla的老版本字符集猜测类chardet的C#实现。准确率也比较低，大致和IE的接口成功率差不多。

PS3.参考资料

juniversalchardet:http://code.google.com/p/juniversalchardet/ （java版代码在BIG5Prober和GB18030Prober类中有BUG，C#版已经修正）

原理参考： http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html

java调用例：juniversalchardet-1.0.3.jar

private String universalCharDet(byte[] contentBinary) {

String encoding = null;

// (1)

UniversalDetector detector = new UniversalDetector(null);

// (2)

detector.handleData(contentBinary, 0, contentBinary.length);

// (3)

detector.dataEnd();

// (4)

if (StringUtils.isNotEmpty(detector.getDetectedCharset())) {

encoding=detector.getDetectedCharset();

logger.info("get page encodeing by UniversalCharDet "+encoding);

}

// (5)

detector.reset();

return encoding;

}

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。