小白学Python之爬虫篇（二）——隐式资源链接查找与爬取

最新推荐文章于 2025-04-26 23:14:41 发布

彩虹味棒棒糖

最新推荐文章于 2025-04-26 23:14:41 发布

阅读量3k

点赞数 5

CC 4.0 BY-SA版权

文章标签：爬虫 Python Request 网站

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_31255093/article/details/96480369

说明

在上一篇文章中，我们对PPT网站的模板进行了爬取，该网站中，每个模板的详情网页直接包含目标资源的链接，因此只需遍历列表中的模板，依次提取链接即可，是一种十分简单的爬虫程序。对于某些稍微复杂些的网页，他们的资源链接并不会直接显示在HTML代码中，本次介绍这种略复杂网页的资源爬取。

核心思路

其实对于这种网页中资源链接的查找，我认为也并不复杂。众所周知，一个网络资源的下载是通过网络间的通讯实现的，即计算机网络中的三次握手，request和response。而我们要找到的就是代码中的request请求，其中必然包含了目标资源的链接。找出request请求是我们的主要任务，其他环节则与上一章所述基本相同。

找到网页中隐藏的目标资源链接

我们以“巨潮资讯网”为例，网站链接为:http://www.cninfo.com.cn/new/index
任意输入一个企业的代码，如600018（上港集团），获得如下界面：
在这里插入图片描述
本次实践的目标是：从巨潮资讯网爬取给定代码列表所代表的企业的2018年年度报告。
具体分析过程如下：
1.查看该详情网页源代码，重点关注HTML代码中是否出现“2018年年度报告”的字样。最终定位到HTML代码中的如下部分：
在这里插入图片描述
可以看到，网页中上港集团的公告列表是通过分页插件实现的，包括我们想要的2018年年度报告在内的公告信

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。