step6: item与pipeline

本文介绍如何使用Scrapy框架中的Item组件来提取和格式化网页数据,包括定义Item类、实例化并填充Item对象,以及配置pipeline进行数据处理。

目的:提取内容进行格式化输出,类似于字典

编写item文件

class   JobBoleArticleItem(scrapy.Item):
    title = scrapy.Field()  #支持传进任何数据类型
    date =  scrapy.Field() 
    praise_num = scrapy.Field() 
    content = scrapy.Field() 

 爬虫文件中引入item类

from Redbacktest.items import JobBoleArticleItem    #按需更改

实例化

    def parse_detail(self,response):
        article_item = JobBoleArticleItem()

传值

        article_item["title"] = title
        article_item["date"] = date
        article_item['praise_num'] = praise_num
        article_item["content"] = content
       
        yield article_item  #item传递到pipeline中

 修改setting文件使item_pipeline生效

ITEM_PIPELINES = {
   'Redbacktest.pipelines.RedbacktestPipeline': 300,
}

 pipeline调试

 

转载于:https://www.cnblogs.com/coolwinds/p/7450985.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值