python 处理抓取网页乱码问题一招鲜

weixin_33991727

于 2013-04-12 15:01:00 发布

阅读量67

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：https://my.oschina.net/012345678/blog/122355

2019独角兽企业重金招聘Python工程师标准>>>

相信用python的人一定在抓取网页时，被编码问题弄晕过一阵

前几天写了一个测试网页的小脚本，并查找是否包含指定的信息。

在html = urllib2.open(url).read() 时，打印到控制台始终出现乱码。

一般的解决办法就是html.decode('utf-8').encode('gb2312')，不过这个即使用了，也没能解决我的问题

这里有两个问题，第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的，能不能主动获取网页的编码格式，并主动获取系统编码格式，像这样

网页编码 = 获取网页编码

系统编码 = 获取系统编码

html.decode(网页编码).encode(系统编码) 即使我不知道网页编码，系统编码，只要双方能转，就行。

网页编码 = re.complier('正则获取meta里的编码格式')

系统编码 = sys.getfilesystemencoding() ########关键的关键

html.decode(网页编码).encode(系统编码) 现在打印，一切正常了。我才不管系统什么编码，只要你能转。

转载于:https://my.oschina.net/012345678/blog/122355

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。