1 引言
为了更好的卖保险(导师要求),需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多,每家又有不少年度披露的pdf。同时,神奇的是,无论怎么点击页面,网页的url都没有发生变化。为了拒绝当人肉爬虫,我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。
2 具体步骤
我们打开保险业协会网站,点击不同的科目,如保险公司年度信息披露,我们发现页面的url并没有发生变化。这时,请不要怀疑自己的眼睛或是砸烂电脑,我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方式。
此时,我们需要找到发送真实请求的页面。我们打开开发者工具,在Network中勾选ALL,清空后重新点击我们要选取的科目,如关联交易合并披露。神奇的事情出现了,红框中标示出来了一个新的url,那么这个url是不是我们真正要找的OnePiece呢?
http://icid.iachina.cn/ICID/front/leafColComType.do?columnid=2016072012158397

Real url
我们进入此url。完蛋,这只是一个和上一页面神似但是长得更丑的网址。

Enter url
我们破罐子破摔,点击第一家保险公司:中国人寿资产管理有限公司,同样我们发现url并没有发生变化。我们“自暴自弃”的按同样的操作观察它的XHR,发现url又变了:
http://icid.iachina.cn/ICID/front/getCompanyInfos.do?columnid=2016072012158397&comCode=GSZC&attr=01
这下,事情似乎有转机了。我们发现似乎只需要在comCode这边赋值所有的保险公司简称即可。
下一步就是获取所有的保险公司的简称,我们在上一页面,即
http://icid.iachina.cn/ICID/f

本文讲述了如何利用Python爬取保险业协会官网中保险公司披露的PDF文件,尽管页面URL不变,但通过分析XHR请求,找到了真实请求的URL,并获取了保险公司简称,最终实现批量下载PDF。
最低0.47元/天 解锁文章
9043

被折叠的 条评论
为什么被折叠?



