Scrapy系列—豆瓣网：爬取动态网页(异步加载数据)

最新推荐文章于 2023-09-16 11:41:38 发布

原创

最新推荐文章于 2023-09-16 11:41:38 发布 · 2.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#scrapy #python

豆瓣网的数据都是通过ajax异步加载上去的，所以我们按照xpath的方式提取数据是提取不完整的

第一步：确定爬取的URL并找到参数规律

1.进入到爬取的目标界面

进入到豆瓣网，点击分类，会显示出下图的界面

2.找到Ajax的请求信息

打开chrome的开发者工具刷新下界面

选中Network→XHR，然后就会看到ajax请求的url和参数了

3.分析数据结构

双击上面的路径，会看到json数据的内容（图1）

把数据复制出来，格式化以后，可以看到data列表里面存放多个字典结构的数据

图1.

图2.

4.分析url和参数

当我们点击不同的标签(图1)，url会发生变化(图2)

这里可以看出各个参数对

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。