scrapy框架中运行多个spider,tiems,pipelines的使用

最新推荐文章于 2024-04-15 21:57:11 发布

小赖同学啊

最新推荐文章于 2024-04-15 21:57:11 发布

阅读量705

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python 数据挖掘

本文链接：https://blog.youkuaiyun.com/testManger/article/details/107636128

python 专栏收录该内容

193 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了如何在Scrapy项目中创建并运行多个Spider，每个Spider有自己的items和pipelines。通过编写crawl.py启动脚本或者修改官方crawl命令，可以同时启动所有Spider。在items.py中定义数据结构，在pipelines.py中处理数据，可以通过设置不同的pipeline类或在pipeline中根据Spider名称进行条件判断来区分不同Spider的数据处理流程。

用scrapy只创建一个项目，创建多个spider，每个spider指定items,pipelines.启动爬虫时只写一个启动脚本就可以全部同时启动。

一，创建多个spider的scrapy项目

scrapy startproject mymultispider
运行方法：

1.为了方便观察，在spider中分别打印相关信息

import scrapy
class Myspd1Spider(scrapy.Spider):
    name = 'myspd1'
    allowed_domains = ['sina.com.cn']
    start_urls = ['http://sina.com.cn/']


    def parse(self, response):
        print('myspd1')

其他如myspd2,myspd3分别打印相关内容。

2.多个spider运行方法有两种，第一种写法比较简单，在项目目录下创建crawl.py文件，内容如下