小白学Python之爬虫篇(二)——隐式资源链接查找与爬取

说明

在上一篇文章中,我们对PPT网站的模板进行了爬取,该网站中,每个模板的详情网页直接包含目标资源的链接,因此只需遍历列表中的模板,依次提取链接即可,是一种十分简单的爬虫程序。对于某些稍微复杂些的网页,他们的资源链接并不会直接显示在HTML代码中,本次介绍这种略复杂网页的资源爬取。

核心思路

其实对于这种网页中资源链接的查找,我认为也并不复杂。众所周知,一个网络资源的下载是通过网络间的通讯实现的,即计算机网络中的三次握手,request和response。而我们要找到的就是代码中的request请求,其中必然包含了目标资源的链接。找出request请求是我们的主要任务,其他环节则与上一章所述基本相同。

找到网页中隐藏的目标资源链接

我们以“巨潮资讯网”为例,网站链接为:http://www.cninfo.com.cn/new/index
任意输入一个企业的代码,如600018(上港集团),获得如下界面:
在这里插入图片描述
本次实践的目标是:从巨潮资讯网爬取给定代码列表所代表的企业的2018年年度报告。
具体分析过程如下:
1.查看该详情网页源代码,重点关注HTML代码中是否出现“2018年年度报告”的字样。最终定位到HTML代码中的如下部分:
在这里插入图片描述
可以看到,网页中上港集团的公告列表是通过分页插件实现的,包括我们想要的2018年年度报告在内的公告信息并没有在HTML代码中展示,我们想要的目标资源链接(2018年度报告的PDF文件)显然也无法直接通过HTML代码找到。
我们在该网页找到“2018年年度报告”的公告,并点击进入,发现该页面有PDF文件的下载按钮,继续查看源代码,定位“下载”按钮到如下位置:
在这里插入图片描述
同样无法直

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值