如何使用scrapy的item来封装数据

最新推荐文章于 2025-06-20 17:17:33 发布

耐耐~

最新推荐文章于 2025-06-20 17:17:33 发布

阅读量3.3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： # 爬虫(停更)

本文链接：https://blog.youkuaiyun.com/f156207495/article/details/81304906

爬虫(停更) 专栏收录该内容

12 篇文章

订阅专栏

本文介绍如何使用Scrapy的Item类封装爬取数据，解决字典方式的不足，包括字段不可见、无类型检查及不便携带元数据的问题。通过实例演示创建BookItems类，解析网页并正确传送name和price数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

在第一篇如何写第一个scrapy里面，我们是使用字典来对数据进行传递，使用字典有以下缺点。

无法直观地了解数据中包含哪些字段
缺乏对字段名字的检测
不便于携带元数据

为了克服上述问题，我们可以使用scrapy中自定义的item类封装爬取到的数据。

spider.py文件

import  scrapy
from books.bookitem import BookItems

class BooksSpider(scrapy.Spider):

    name = "start"
    start_urls = ["http://books.toscrape.com/"]

    def parse(self, response):
        for book in response.css('article.product_pod'):
            name = book.xpath('./h3/a/@title').extract_first()
            price = book.css('p.price_color::text').extract_first()
            item = BookItems()
            item['name'] = name
            item['price'] = price
            yield item

        next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
        if next_url:
            next_url = response.urljoin(next_url)
            yield scrapy.Request(next_url , callback=self.parse)

这里写图片描述

新建一个文件bookitem.py

from scrapy import Item,Field

class BookItems(Item):

    name = Field()
    price = Field()

可以看到运行结果如下：
这里写图片描述
正确传送了name和price数据。

核心代码解读

item = BookItems()
item[‘name’] = name
item[‘price’] = price
yield item

首先实例化BookItems，然后将解析得到的name和price传入给item，并用yield返回给引擎处理。
注意，这里item的键是和定义的字段相对应的，如果写成item[‘names’] = name，会报错。

class BookItems(Item):
name = Field()
price = Field()

Item类是自定义数据类（BookItems）的基类，需要被自定义数据类继承。
Field类是用来描述自定义数据类包含哪些字段，如name、price等。

小结

该篇简单介绍了Item基类和用来定义字段的Field类的用法，还有更多的用法以后再学习。