Scrapy翻页爬取示例——列表页、详情页

何变量

于 2021-03-12 15:54:13 发布

阅读量5.6k

点赞数 3

分类专栏：爬虫文章标签： xpath python

本文链接：https://blog.youkuaiyun.com/qq_39453977/article/details/114695163

版权

本文介绍了使用Scrapy进行网页翻页爬取的实例，包括列表页和详情页的抓取。以一个英—泰双语数据爬取项目为背景，详细讲解了如何构造请求，获取下一页数据，并从列表页进入详情页爬取内容。通过start_requests获取起始地址，XPath解析HTML，以及pipelines处理详情页内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Scrapy翻页爬取示例——列表页、详情页

引言： 本人最近在帮助同事们爬取一批英—泰双语数据，顺带复习了一下scrapy爬虫相关的知识。下面以简单的小项目为例，一起来开始吧！

示例一：爬取列表页

本文以这个网站为例：https://engoo.co.th/app/words/list/en/a

网站首页如图：
在这里插入图片描述

向下翻会看到翻页的小图标：

在这里插入图片描述

假如我们要获取1-17页该页面上所有的字符串，如下所示：
在这里插入图片描述

应该如何做？

先给出代码（仅逻辑实现部分）：

    def parse(self, response):
        divs = response.xpath("//div[@class='css-rv942s']")
        for div in divs:
            item = ThaiItem()
            item['en'] = div.xpath("./span[@class='css-1sylyko']/a/text()").extract_first()
            item['thai'] = div.xpath("./span[@class='css-epvm6']/span/div[@class='css-jiq801']/text()")

最低0.47元/天解锁文章