爬虫入门(四) ajax网页的爬取

最新推荐文章于 2023-12-11 15:33:16 发布

原创

最新推荐文章于 2023-12-11 15:33:16 发布 · 3.6k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

ajax网页的爬取

看完1，2，3的教程其实呢一些简单结构的网站基本都能爬取了，然而在现在网页页面资源越来越丰富的趋势下，每次一刷新就把整个网页给你重新加载已经是out的做法了，而你可能也会忍受不了它的加载速度，所以Ajax技术就诞生了，这是一种异步加载的技术，换而言之就是你看到的只是加载了一部分的页面，典型的就是如果壳网http://www.guokr.com/scientific/，你一直往下拉，页面就会显示更多的内容给你，而不是一次性的全加载进来

可我们的爬虫可不能帮你”手动向下拉”，那怎么办呢？这时候就要通过抓包来分析异步加载的网页的特征了

我们就以上面的果壳网为例子，这里我用的是火狐浏览器来抓包

环境 ubuntu 16.04 python3.6.1

我们套路一下，打开页面，打开检查元素开发者选项，然后刷新一下，在网络监视器里选择XHR(XMLHttpRequest)，我们可以看到一个请求就来了，我们再往下拉，等到第二个页面加载，第二个请求就来了

我们点开两个请求看看参数

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。