前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论。
于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取。
于是写了mainPage2links() 函数,向它传入首页链接,可以得到首页展示文章的链接。
然后就可以批量爬取了。
当然这其中,也遇到了问题。首页解析后,在h4标签下的子标签a中可以找到文章的网址后半段,因此思路是先取出a标签中的href网址后半段,然后通过字符串的合并,得到完整的文章链接。
前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论。
于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取。
于是写了mainPage2links() 函数,向它传入首页链接,可以得到首页展示文章的链接。
然后就可以批量爬取了。
当然这其中,也遇到了问题。首页解析后,在h4标签下的子标签a中可以找到文章的网址后半段,因此思路是先取出a标签中的href网址后半段,然后通过字符串的合并,得到完整的文章链接。