python写的爬虫抓取到的网页是乱码解决

本文介绍了一种在Python 2.7环境下使用chardet库自动检测网页编码,并将其转换为统一的UTF-8编码的方法。这种方法能有效解决爬虫采集过程中遇到的不同网页编码导致的数据乱码问题。
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办?
下面所说的都是针对python2.7
如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码。
#chardet 需要下载安装
import chardet
#抓取网页html
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
mychar=chardet.detect(html_1)
#print mychar
bianma=mychar['encoding']
if bianma == 'utf-8' or bianma == 'UTF-8':
  #html=html.decode('utf-8','ignore').encode('utf-8')
 html=html_1
else :
  html =html_1.decode('gb2312','ignore').encode('utf-8')
有以上处理,整个html就不会是乱码。




本文转自 baiying 51CTO博客,原文链接:http://blog.51cto.com/baiying/1162617,如需转载请自行联系原作者
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值