Python spider (五) Scrapy管道操作

Adorable_Rocy

已于 2022-03-27 17:22:45 修改

阅读量2.1k

点赞数

分类专栏： python 文章标签： python 开发语言

于 2022-03-27 15:46:53 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43409994/article/details/123770230

版权

1.准备环境

这里只需要介绍windows的就好，其他system可以直接命令安装即可
pip install wheel
还需要安装Twisted，这个东西需要查看自己的版本和对应的版本关系，不然可能不兼容
pip install win32
pip install scrapy

2.如何使用？

# 创建工程
scrapy startproject pro_name
# 创建爬虫文件 
scrapy genspider spider_name www.xxx.com # 这里要注意，记得进入工程文件夹中再创建爬虫文件

在这里插入图片描述

持久化存储（基于终端指令实现）

思路：

将爬取到的数据进行处理，拿到想要的数据
将数据添加到字典当中（而不是字符串）
返回字典
终端命令执行

# item操作
class TestSpider(scrapy.Spider):
    name = 'test'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.xuexila.com/duanzi/nahanduanzi/2870287.html']

    def parse(self, response):
        page_text_list = response.xpath('//*[@id="contentText"]//p/text()').extract()
        all_datas = []
        for text in page_text_list:
            text = ''.join(text)
            dic = {
   
                'context':text
            }
            all_datas.append(dic)
        return all_datas

补充：这里会弹出一大堆的没啥用的日志文件，我们需要修改一下日志等级,在settings文件下添加日志等级

在这里插入图片描述

回调函数Callback

 # url模板
    url = 'https://www.xuexila.com

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Adorable_Rocy

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫之Scrapy框架系列（1）——初识Scrapy框架【安装+简介+运行流程+组件介绍】

孤寒者的博客

07-05

3万+

Python爬虫之Scrapy框架系列（1）——初识Scrapy框架【安装+简介+运行流程+组件介绍】

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

最新发布

蜗牛沐雨

04-03

894

管道作为一种强大的进程间通信机制，不仅可以用于简单的父子进程通信，还可以在更复杂的场景中发挥重要作用。通过结合使用管道、队列、文件操作、网络套接字和异步编程，可以实现高效的数据处理和通信。希望这些高级应用案例能帮助你更好地理解和使用管道，满足各种复杂的编程需求。如果你有任何疑问或建议，欢迎在评论区留言。

【Scrapy】管道

摆烂！

03-10

640

管道（Pipeline）是 Scrapy 中用于处理抓取数据的组件。通过管道，你可以定义一系列的数据处理操作，如数据清洗、验证、持久化存储等。

scrapy管道的使用

qq_41810183的博客

02-01

437

之前我们在scrapy入门使用一节中学习了管道的基本使用，接下来我们深入的学习scrapy管道的使用。继续完善wangyi爬虫，在pipelines.py代码中完善。在settings.py设置开启pipeline。

【Python爬虫实战】深入解析 Scrapy 管道：数据清洗、验证与存储的实战指南

易辰的博客

12-16

1891

Scrapy 是一个功能强大的 Python 爬虫框架，在其中，管道（Pipeline）是处理抓取到的数据的核心部分。管道的作用是对爬虫抓取到的 Item 进行后续处理，例如清洗、验证、存储等操作。本节将从多个方面详细介绍 Scrapy 管道的使用，包括管道的基本功能、配置方法、数据存储的实现、管道的多样化处理逻辑以及注意事项。管道是 Scrapy 爬虫项目中处理数据的核心组件。通过管道，可以对抓取的数据进行清洗、验证、存储等操作。

Python 爬虫框架Scrapy

Shinersmile的博客

01-09

3992

在scrapy中，会专门定义一个用于记录数据的类，实例化一个对象，利用这个对象来记录数据。每一次，当数据完成记录，它会离开spiders，来到Scrapy Engine（引擎），引擎将它送入Item Pipeline（数据管道）处理。定义这个类的py文件，是items.py。

python Scrapy 框架 demo

杨杨杨~~的博客

09-29

1621

如果您觉得有用的话，记得给，写作不易啊^ _ ^。而且听说，实在白嫖的话，那欢迎常来啊!!!

Python爬虫学习笔记_DAY_30_Python爬虫之scrapy框架管道的使用详细介绍【Python爬虫】

跳探戈的小龙虾的博客

02-26

2345

接下来是一个小知识点：管道的核心代码大部分都在它的名叫 process_item(self，item，spider) 这个函数中。我们于是锁定这个函数体，第二个小知识点是，process_item(self，item，spider) 函数的传参item，是我们在items.py中定义的数据结构对应的数据，也就是说item本身包含了我们传入的初步数据，回忆scrapy框架的工作原理，管道是对数据的二次处理，所以我们会先在爬虫文件中对数据进行解析，解析后的数据才会放进item中。

scrapy有那些管道

大今野

11-24

681

在Scrapy中，管道（Pipeline）用于处理从爬虫（Spider）中提取的数据。

9.4 Scrapy的项目管道

Hathaway的博客

02-02

564

这些组件最重要的思路就是拦截，即过滤 item管道：作用一：入库校验：一是可以在管道，但主要是在item定义字段校验管道是什么 Item管道(Item Pipeline)：主要负责处理有蜘蛛从网页中抽取的Item，主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后，将被发送到Item管道，并经过几个特定的次序处理数据。每个Item管道的组件都是有一个简单的方法组成的Pyth

Scrapy_pipelines管道文件详细教程保存csv,Mysql,Mongodb以及多个item返回pipelines的处理

m0_73689941的博客

11-14

1569

Scrapy_pipelines文件详细教程保存到csv,Mysql,Mongodb以及多个item返回pipelines的处理

Scrapy管道设置和数据保存

qq_62943420的博客

11-27

1154

文字提到常用的Web框架有Django和Flask，接下来将学习一个全球范围内流行的爬虫框架Scrapy。定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎# 爬虫文件中把数据传输的方法每次yield一个item, 就会运行一次# 该方法为固定存储函数。

Scrapy | Scrapy框架中管道的使用

HG0724的博客

10-19

595

在Scrapy中，爬虫管道（Item Pipeline）是用于处理Spider提取的数据的一系列组件。它们的主要职责是清洗、验证和存储爬取的数据。请记住，管道的主要目的是处理Spider提取的数据。因此，确保你的管道逻辑专注于数据清洗、验证和存储。在某些情况下，你可能需要在管道中区分不同的爬虫，以便对不同的爬虫使用不同的处理逻辑。是一个字典，键是管道的路径，值是它们的优先级（数字越小，优先级越高。

爬虫中scrapy管道的使用

qq_52262831的博客

12-13

3879

一、pipeline中常用的方法二、管道的使用三、为什么settings中能够（需要）开启多个管道四、pipeline使用注意点

python的scrapy怎么开启多个管道

weixin_35749796的博客

01-02

490

在 Scrapy 中，您可以使用多个管道来处理爬取到的数据。要启用多个管道，需要在项目的 settings.py 文件中设置 ITEM_PIPELINES 选项。例如，如果你想启用两个管道，Pipeline1 和 Pipeline2，你可以将 ITEM_PIPELINES 设置为： ITEM_PIPELINES = { 'myproject.pipelines.Pipeline1': 30...

Scrapy框架的学习(2.scrapy入门，简单爬取页面，并使用管道(pipelines)保存数据)

Mogul的博客

01-09

1976

上个博客写了： Scrapy的概念以及Scrapy的详细工作流程https://blog.youkuaiyun.com/wei18791957243/article/details/86154068 1.scrapy的安装 pip install scrapy 2.创建Scarpy项目: 在cmd中进入到想要创建Scrapy项目的路径下(最好在已经创建好的pycharm的工程路径下，就不......

Python爬虫框架Scrapy入门详解

2. 易于扩展：Scrapy的设计允许用户通过创建中间件、管道（pipelines）和item处理器来扩展它的功能。 3. 多协议支持：Scrapy能够处理HTTP、HTTPS协议，同时它也支持更高级的特性，如Cookies和会话处理。 4. 多用途...