当我们使用requests爬网页的时候,如
html = requests.get(url).text
print html
会报以下编码错误:
UnicodeEncodeError: 'gbk' codec can't encode character u'\x82' in position 71: illegal multibyte sequence
这时我们只要稍微修改一下,将text
改为content
,如
html = requests.get(ori_url).content
print html.decode('utf-8')
就可以了,此时html
为utf-8
编码的str
。