Scrapy 笔记3 ----Item() 配置

最新推荐文章于 2024-05-31 21:24:28 发布

Yif_Zhou

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量500

点赞数 1

分类专栏：知识点文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/weixin_40733475/article/details/85221959

版权

本文介绍了Scrapy框架中Item的使用，包括如何在item.py中定义抓取对象，Pipeline.py中的处理流程，以及在settings.py中的配置。通过实例展示了如何创建自定义Item类，如何在Pipeline中处理Item，并在settings.py中设置Item管道的优先级，最终将抓取的数据保存为本地JSON文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Overview

在笔记2中，我们抓取了页面的文章内容，问题来了，如何将撸下来的文章保存呢？其实方法很多，既然抓取到了，就可以把抓到的内容写入本地，或者记录下来之后，传入数据库，等等。这里，我们要看一下Scrapy 框架Item 是如何保存的。

框架结构看一眼

	bole/
    scrapy.cfg
    bole/
        __init__.py
        items.py    
        pipelines.py    
        settings.py
        spiders/
            __init__.py
            ...

这里，我们主要用 items, pipeline, setting

来，写代码

item.py 存放一切抓取对象，以Python 字典格式存储

打开瞄一眼

# Define here the models for your scraped items
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BoleItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

打开文件会发现，这