Python抓取gb2312字符集网页中文乱码

解决Python抓取GB2312编码网页中文乱码问题

最新推荐文章于 2022-06-30 11:08:38 发布

原创最新推荐文章于 2022-06-30 11:08:38 发布 · 8.4k 阅读

1 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。网易内推职位：www.zhupite.com

Python 专栏收录该内容

16 篇文章

订阅专栏

本文详细介绍了在使用Python抓取包含GB2312编码网页时遇到中文乱码问题的解决方案。通过重新设置网页编码方式，成功解决了乱码问题，并分享了在编码转换过程中的注意事项。

最近在学习Python，练习用Python抓取网页内容并解析，在解析gb2312字符集网页时出现中文乱码：

UnicodeEncodeError: 'gbk' codec can't encode character u'\xbb' in position 0: illegal multibyte sequence

网上找了一大推，长篇大论啰嗦了半天都不知道在讲什么，原来Python程序员的表达能力这么差。

后来找到一个解决方案，参考：

  http://www.zhetenga.com/view/python%E7%9A%84requests%E7%B1%BB%E6%8A%93%E5%8F%96%E4%B8%AD%E6%96%87%E9%A1%B5%E9%9D%A2%E5%87%BA%E7%8E%B0%E4%B9%B1%E7%A0%81-0abbaa140.html
 

  也就是用网页中的字符编码方式重新编码一次即可：
 

# 使用requests库封装一个简单的通过get方式获取网页源码的函数
def getsource(url):
    html = requests.get(url)
    s = html.text.encode(html.encoding)
    # print s
    return s