升级完善第一个爬虫GCZW3，使能够批量爬取多篇文章热评

原创

于 2018-03-13 15:47:33 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了如何升级一个Python爬虫，使其能从观察者网首页获取所有文章链接并批量爬取每篇文章的热门评论。主要解决了两个难点：一是如何从h4标签下的a子标签中提取网址后半段；二是如何构造列表来存储多个文章链接，以便于后续的批量爬取。

前天写了观察者网的爬虫，只能根据某个网页链接爬取，不能一次性大量爬取多篇文章的热门评论。

于是，今天想把它升级一下，让它可以从首页获取首页展示的所有文章的链接，并分别进行爬取。

于是写了mainPage2links() 函数,向它传入首页链接，可以得到首页展示文章的链接。

然后就可以批量爬取了。

当然这其中，也遇到了问题。首页解析后，在h4标签下的子标签a中可以找到文章的网址后半段，因此思路是先取出a标签中的href网址后半段，然后通过字符串的合并，得到完整的文章链接。

现在

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。