用scrapy只创建一个项目,创建多个spider,每个spider指定items,pipelines.启动爬虫时只写一个启动脚本就可以全部同时启动。
一,创建多个spider的scrapy项目
scrapy startproject mymultispider运行方法:
1.为了方便观察,在spider中分别打印相关信息
import scrapy
class Myspd1Spider(scrapy.Spider):
name = 'myspd1'
allowed_domains = ['sina.com.cn']
start_urls = ['http://sina.com.cn/']
def parse(self, response):
print('myspd1')
其他如myspd2,myspd3分别打印相关内容。
2.多个spider运行方法有两种,第一种写法比较简单,在项目目录下创建crawl.py文件,内容如下
from scrapy.crawler
本文介绍了如何在Scrapy项目中创建并运行多个Spider,每个Spider有自己的items和pipelines。通过编写crawl.py启动脚本或者修改官方crawl命令,可以同时启动所有Spider。在items.py中定义数据结构,在pipelines.py中处理数据,可以通过设置不同的pipeline类或在pipeline中根据Spider名称进行条件判断来区分不同Spider的数据处理流程。
订阅专栏 解锁全文
65万+

被折叠的 条评论
为什么被折叠?



