当我们使用requests爬网页的时候,如
html = requests.get(url).text
print html
会报以下编码错误:
UnicodeEncodeError: 'gbk' codec can't encode character u'\x82' in position 71: illegal multibyte sequence
这时我们只要稍微修改一下,将text改为content,如
html = requests.get(ori_url).content
print html.decode('utf-8')
就可以了,此时html为utf-8编码的str。
本文介绍了解决使用requests库进行网页爬取时遇到的UnicodeEncodeError编码问题的方法。通过简单地将.text方法替换为.content,并指定正确的解码方式,可以有效避免因编码不匹配导致的错误。
63万+

被折叠的 条评论
为什么被折叠?



