如何使用scrapy的item来封装数据

本文介绍如何使用Scrapy的Item类封装爬取数据,解决字典方式的不足,包括字段不可见、无类型检查及不便携带元数据的问题。通过实例演示创建BookItems类,解析网页并正确传送name和price数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

在第一篇如何写第一个scrapy里面,我们是使用字典来对数据进行传递,使用字典有以下缺点。

  1. 无法直观地了解数据中包含哪些字段
  2. 缺乏对字段名字的检测
  3. 不便于携带元数据

为了克服上述问题,我们可以使用scrapy中自定义的item类封装爬取到的数据。

spider.py文件

import  scrapy
from books.bookitem import BookItems

class BooksSpider(scrapy.Spider):

    name = "start"
    start_urls = ["http://books.toscrape.com/"]

    def parse(self, response):
        for book in response.css('article.product_pod'):
            name = book.xpath('./h3/a/@title').extract_first()
            price = book.css('p.price_color::text').extract_first()
            item = BookItems()
            item['name'] = name
            item['price'] = price
            yield item

        next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
        if next_url:
            next_url = response.urljoin(next_url)
            yield scrapy.Request(next_url , callback=self.parse)

这里写图片描述

新建一个文件bookitem.py

from scrapy import Item,Field

class BookItems(Item):

    name = Field()
    price = Field()

可以看到运行结果如下:
这里写图片描述
正确传送了name和price数据。

核心代码解读

item = BookItems()
item[‘name’] = name
item[‘price’] = price
yield item

首先实例化BookItems,然后将解析得到的name和price传入给item,并用yield返回给引擎处理。
注意,这里item的键是和定义的字段相对应的,如果写成item[‘names’] = name,会报错。

class BookItems(Item):
name = Field()
price = Field()

Item类是自定义数据类(BookItems)的基类,需要被自定义数据类继承。
Field类是用来描述自定义数据类包含哪些字段,如name、price等。

小结

该篇简单介绍了Item基类和用来定义字段的Field类的用法,还有更多的用法以后再学习。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值