抓取一批页面的内容时,经常会遇到编码类型不同的问题,经常令我们比较头痛,python有一个第三方的编码检测模块模块,可以为我们自动检测编码类型,并给出信心度,它检测的返回结果形式为:
{
'confidence': 0.99, 'encoding': 'utf-8'}
它是一个字典类型,我们可以通过字典的方式访问结果中的值。
chardet的安装
chardet 是python的第三方库,需要下载和安装。下载的地址有:
- 推荐地址: http://download.youkuaiyun.com/download/aqwd2008/4256178
- 官方地址: http://pypi.python.org/pypi/chardet
如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以被python引用到。如果不能被引用到请加入环境变量。
chardet有两种检测文件编码的方法,下面我们分别用例子介绍一下。