写在前面:
在简单的学习完爬虫入门后,自己做简单的采集时,发现目标网址下只有页码,没有上一页下一页,也一度放弃过,换了采集网址,后来又在书本上看到了解决方法,只是目前能用
下面时解决的代码截图

代码部分如下
def __init__(self):
self.page_index = 1
# 提取下一页并提交给scrapy进行下载
self.page_index += 1
# 拼接下一页链接
next_link = 'https://***.com/comic/?page=' + str(self.page_index)
if self.page_index < 3306:
yield Request(url=next_link, callback=self.parse)
后面想到好的方法再来更新吧
-更新于2020年3月15日14点34分

本文分享了一种在目标网站仅提供页码而无上下页链接时的爬虫翻页策略,通过动态增加页码实现连续采集,适用于特定网页结构的自动化数据抓取。

1746

被折叠的 条评论
为什么被折叠?



