爬取并下载url不变的pdf文件

本文讲述了如何利用Python爬取保险业协会官网中保险公司披露的PDF文件,尽管页面URL不变,但通过分析XHR请求,找到了真实请求的URL,并获取了保险公司简称,最终实现批量下载PDF。

1 引言

为了更好的卖保险(导师要求),需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多,每家又有不少年度披露的pdf。同时,神奇的是,无论怎么点击页面,网页的url都没有发生变化。为了拒绝当人肉爬虫,我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。

2 具体步骤

我们打开保险业协会网站,点击不同的科目,如保险公司年度信息披露,我们发现页面的url并没有发生变化。这时,请不要怀疑自己的眼睛或是砸烂电脑,我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方式。
此时,我们需要找到发送真实请求的页面。我们打开开发者工具,在Network中勾选ALL,清空后重新点击我们要选取的科目,如关联交易合并披露。神奇的事情出现了,红框中标示出来了一个新的url,那么这个url是不是我们真正要找的OnePiece呢?

http://icid.iachina.cn/ICID/front/leafColComType.do?columnid=2016072012158397

Real url

我们进入此url。完蛋,这只是一个和上一页面神似但是长得更丑的网址。

Enter url

我们破罐子破摔,点击第一家保险公司:中国人寿资产管理有限公司,同样我们发现url并没有发生变化。我们“自暴自弃”的按同样的操作观察它的XHR,发现url又变了:

http://icid.iachina.cn/ICID/front/getCompanyInfos.do?columnid=2016072012158397&comCode=GSZC&attr=01

这下,事情似乎有转机了。我们发现似乎只需要在comCode这边赋值所有的保险公司简称即可。
下一步就是获取所有的保险公司的简称,我们在上一页面,即

http://icid.iachina.cn/ICID/f
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值