Scrapy系列—豆瓣网:爬取动态网页(异步加载数据)

豆瓣网的数据都是通过ajax异步加载上去的,所以我们按照xpath的方式提取数据是提取不完整的

 

第一步:确定爬取的URL并找到参数规律

1.进入到爬取的目标界面

进入到豆瓣网,点击分类,会显示出下图的界面

 

2.找到Ajax的请求信息

打开chrome的开发者工具刷新下界面

选中Network→XHR,然后就会看到ajax请求的url和参数了

 

3.分析数据结构

双击上面的路径,会看到json数据的内容(图1)

把数据复制出来,格式化以后,可以看到data列表里面存放多个字典结构的数据

图1.

图2.

 

4.分析url和参

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值