爬虫中处理编码乱码问题

最新推荐文章于 2023-01-07 18:38:55 发布

牧码文

最新推荐文章于 2023-01-07 18:38:55 发布

阅读量784

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_46429290/article/details/111865995

博客指出爬虫爬取内容可能出现乱码，原因是网页编码方式与requests默认编码方式不同。可在网页head中查看网页编码，通过代码查看requests编码。处理乱码需使二者匹配，对str二次解析可解决编码不一致问题并拿到标签内内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在爬虫使用的过程中，可能会出现爬取的内容是乱码的情况，就像下面这样
在这里插入图片描述
造成上述乱码情况的原因是因为网页的编码方式和requests的默认编码方式不同造成的，网页的编码方式可以在网页head中查找到

可以看到网页的编码方式采用的是gbk，而requests的编码方式可以通过一下代码块进行查看

import requests

url = 'https://www.baidu.com/s?'

response = requests.get(url)
print(response.encoding)

在这里插入图片描述
可以看到requests的编码方式是ISO-8859-1
这是处理乱码就需要将网页编码方式和requests编码方式匹配

aa = aa.encode('iso-8859-1').decode('gbk')

处理乱码采用的是以上代码，aa的数据类型是str，如果要使用text方法将标签中的内容拿到，还要对str进行二次解析

for dd in dds:
    aa=dd.find('a')
    #处理乱码
    aa = aa.encode('iso-8859-1').decode('gbk')
    aa=BeautifulSoup(aa,'html.parser')
    print(aa.text,'\n')