Python爬虫应用实战-爬取网站漂亮小姐姐，可爱的小姐姐谁不爱呢？

最新推荐文章于 2024-08-12 01:10:35 发布

文宇肃然

最新推荐文章于 2024-08-12 01:10:35 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： python快速学习实战应用系列课程文章标签： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/120503087

python快速学习实战应用系列课程专栏收录该内容

139 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Python爬虫分析并抓取今日头条网站上的美女图片。通过理解Ajax请求，模拟请求获取JSON数据，解析并保存图片，实现了无须登录即可抓取页面内容的功能。虽然在获取高清图片URL时遇到签名认证问题，但通过分析找到了解决方案，成功下载了大量图片。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

有时候我们会用requests抓取页面的时候，得到的结果可能和浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的是原始的HTML文档，而浏览器中的页面则是经过javascript处理数据后生成的结果，这些数据的来源有多种，可能通过Ajax加载的，可能是包含在HTML文档当中，也有可能是经过javascript特定算法计算后生成的。

对于第一种情况：Ajax加载数据是一种异步加载方式，原始的农业面最初是不会包含这些数据的，原始页面加载完成之后，会再向服务器请求某个接口的数据，然后数据就会被处理从而呈现到网页上，这就是一个Ajax请求。

按照目前web的发展形式，这种页面会越来越多。网页的原始HTML中不会包含任何的数据，数据是通过Ajax统一加载后呈现出来的，这样在web开发上可以做到前后分离，而且降低了服务器直接渲染页面带来的压力。

因此，直接利用requests来获取原始HTML，是无法获取到有效的数据的，这时需要分析网页后台向接口发送的Ajax请求，如果可以用requests来模拟Ajax请求，那么就可以正常抓取数据了。

什么是Ajax

Ajax是异步的javascript和xml。它不是一门编程语言，而是利用javascript保证页面不被刷新

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。