[python][scrapy]没有上一页下一页只有页码的简单操作

最新推荐文章于 2024-01-24 13:20:05 发布

原创最新推荐文章于 2024-01-24 13:20:05 发布 · 896 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #scrapy

python 同时被 2 个专栏收录

9 篇文章

订阅专栏

py-scrapy

2 篇文章

订阅专栏

本文分享了一种在目标网站仅提供页码而无上下页链接时的爬虫翻页策略，通过动态增加页码实现连续采集，适用于特定网页结构的自动化数据抓取。

写在前面:
在简单的学习完爬虫入门后,自己做简单的采集时,发现目标网址下只有页码,没有上一页下一页,也一度放弃过,换了采集网址,后来又在书本上看到了解决方法,只是目前能用

下面时解决的代码截图
在这里插入图片描述

代码部分如下

def __init__(self):
        self.page_index = 1

# 提取下一页并提交给scrapy进行下载
        self.page_index += 1

        # 拼接下一页链接
        next_link = 'https://***.com/comic/?page=' + str(self.page_index)
        if self.page_index < 3306:
            yield Request(url=next_link, callback=self.parse)

后面想到好的方法再来更新吧

-更新于2020年3月15日14点34分