Scrapy之一个item包含多级页面的处理方案

我的身前一尺是我的世界

于 2025-01-24 00:11:36 发布

阅读量373

点赞数 4

分类专栏：爬虫文章标签： scrapy 多级页面下载深度爬虫

本文链接：https://blog.youkuaiyun.com/qq_39706570/article/details/145329839

版权

目标

在实际开发过程中，我们所需要的数据往往需要通过多个页面的数据汇总得到，通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看，实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。

版本

Scrapy 2.12.0

实战

第一步：搭建Scrapy框架。略过，如果不会搭建的通过可以看我之前的Scrapy入门文章。

第二步：通过打开目标网页，查看网页代码，我们可以的到手游排行榜的基础信息，这里我们只获取标题。

import scrapy


class SytopSpider(scrapy.Spider):
    name = "sytop"
    allowed_domains = ["sy.yzz.cn"]
    start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]

    def parse(self, response):
        a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")
        for a in a_list:
            # 标题
            alt = a.xpath("./img/@alt").get()
            print(alt)

第三步：进入二级页面，获取描述信息。此时日志打印可以看到，单个游戏的信息并没有组合起来。

import scrapy


class SytopSpider(scrapy.Spider):
    name = "sytop"
    allowed_do

最低0.47元/天解锁文章