python 学习013

python自动检测文档内码

python 内码检测模块chardet,是从firefox中移植的,判定正确率比较高。

下载地址:http://chardet.feedparser.org/

ubuntu下如果遇到ImportError: No module named chardet
可以通过如下的命令自动安装:

zhouhh@zhh64:~$ sudo apt-get install python-chardet

 

chardet.detect(buffer)会返回一个字典。

chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
其中confidence是可信度,encoding是编码。

 

下面是用法示例。

[python] view plain copy
  1. #!/usr/bin/env python  
  2. # -*- coding: UTF-8 -*-  
  3. import chardet  
  4. import urllib  
  5. if __name__ == '__main__':  
  6.     mydet = {  
  7.         'SHIFT_JIS':'http://www.mankan.or.jp/',  
  8.         'GB2312':'http://g.cn/',  
  9.         'Big5':'http://www.programmer-club.com.tw/',  
  10.         'UTF8':'http://zh.wikipedia.org/'  
  11.         }  
  12.           
  13.     for url in mydet.values():  
  14.         print url  
  15.         rawdata = urllib.urlopen(url).read()  
  16.         enc = chardet.detect(rawdata)  
  17.         print enc['encoding']  
  18.       

 

执行:

python encdet.py
http://zh.wikipedia.org/
utf-8
http://www.mankan.or.jp/
SHIFT_JIS
http://g.cn/
GB2312
http://www.programmer-club.com.tw/
Big5


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值