使用requests包爬取数据时，返回空的数据

最新推荐文章于 2023-12-11 10:43:04 发布

原创最新推荐文章于 2023-12-11 10:43:04 发布 · 5.7k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python

python爬虫专栏收录该内容

1 篇文章

订阅专栏

本文解析了使用requests包进行数据爬取时遇到返回空数据的问题，深入分析服务器识别爬虫的原因，并提供了解决方案——通过模拟浏览器的User-Agent来避免被服务器识别，确保数据抓取的成功。

使用requests包爬取数据时，返回空的数据

原因分析：服务器会识别我们是爬虫，所以导致返回数据为空
解决办法：模拟浏览器，伪装成浏览器访问服务器
模拟浏览器：使用浏览器的User-Agent
这时，有的同学就要问了，怎么查看浏览器的User-Agent，这里就先展示一下如何查看浏览器的User-Agent：以谷歌浏览器为例：
1.在地址栏输入about://version如图所示：

2.将红框中的数据复制出来：
在这里插入图片描述
3.代码中使用requests库访问服务器时带上User-Agent数据：

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \
             "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"}
f = requests.get(url, headers = header)