Python学习记录二

原创于 2017-02-28 10:11:00 发布 · 313 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #乱码

python 专栏收录该内容

6 篇文章

订阅专栏

今天在尝试使用Python抓取网页中内容的时候，遇到了一个问题-就是控制台中文输出乱码的问题。
解决如下：首先需要下载Python的第三方库chardet，下载地址为：http://download.youkuaiyun.com/download/aqwd2008/4256178 ，下载后解压，复制文件夹中的chardet文件夹到Python安装目录下的Lib的site-packages目录下。
然后实现转码，首先当然是引用库

import urllib
import re
import sys
import chardet

我们可以先了解自己系统默认编码方式和网页编码方式：

url = '要获取内容的网址....'
page = urllib.urlopen(url)
respond = page.read()
print 'System default encoding: ',sys.getfilesystemencoding()
print 'Html is encoding by : %',chardet.detect(respond)

从图片可知，系统默认编码方式为mbcs，网页编码方式为utf-8

从图片可知，系统默认编码方式为mbcs，网页编码方式为utf-8
所以，我们要实现转码：

respond.decode('utf-8').encode('mbcs')

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。