方法一:
response=requests.get(url=url,headers=headers)
response.encoding='utf-8'
page_text=response.text
方法二:
只需要针对乱码的属性值处理就行。
img_name=li.xpath('./a/img/@alt')[0]+'.jpg'
img_name=img_name.encode('iso-8859-1').decode('gbk')

方法三:
tt=tt.encode('ISO-8859-1').decode('utf-8')
方法4:忽略错误
name = name.encode('ISO-8859-1').decode('utf-8', "ignore")
本文介绍了解决从网页抓取数据时遇到的字符编码乱码问题的四种方法,包括设置响应编码、针对特定属性值进行编码转换、忽略解码过程中的错误等实用技巧。
2525

被折叠的 条评论
为什么被折叠?



