Python3使用Scrapy2.4框架爬取数据，多个spider同时执行

原创已于 2022-05-16 11:41:27 修改 · 366 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2021-02-04 19:53:20 首次发布

爬虫专栏收录该内容

10 篇文章

订阅专栏

该博客介绍了如何在Scrapy中创建一个名为crawlall的命令，用于一键运行项目中的所有蜘蛛。首先，通过继承ScrapyCommand并在crawlall.py中实现相关功能，然后在配置文件中设置COMMANDS_MODULE来注册此命令。最后，可以通过命令行或本地入口文件执行这个新命令，方便快捷地运行全部爬虫任务。

在这里插入图片描述

新建目录commands和文件crawlall.py

from scrapy.commands import ScrapyCommand
from scrapy.utils.project import get_project_settings

class Command(ScrapyCommand):
  requires_project = True

  def syntax(self):
    return '[options]'

  def short_desc(self):
    return 'Runs all of the spiders'

  def run(self, args, opts):
    spider_list = self.crawler_process.spiders.list()
    for name in spider_list:
      self.crawler_process.crawl(name, **opts.__dict__)
    self.crawler_process.start()

配置文件增加配置

COMMANDS_MODULE="weather.commands"

命令执行

[root@AlexWong /]# scrapy crawlall

或者本地入口执行文件entrypoint.py

# 入口执行文件
from scrapy import cmdline

cmdline.execute(['scrapy', 'crawlall'])

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

解忧杂货铺Q

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

scrapy框架中运行多个spider,tiems,pipelines的使用

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

07-28

711

用scrapy只创建一个项目，创建多个spider，每个spider指定items,pipelines.启动爬虫时只写一个启动脚本就可以全部同时启动。一，创建多个spider的scrapy项目 scrapy startproject mymultispider cd mymultispider scrapy genspider myspd1 sina.com.cn scrapy genspider myspd2 sina.com.cn scrapy genspider myspd3 sina.com

Python爬虫实战：使用Scrapy+Playwright动态爬取“人人都是产品经理“全站文章

最新发布

2201_76125261的博客

06-29

1381

本文将详细介绍如何使用Python最新技术栈(Scrapy+Playwright)构建一个高效、稳定的爬虫系统，完整爬取"人人都是产品经理"网站()的所有文章数据。文章包含技术选型分析、完整项目搭建、反反爬策略、数据存储方案以及性能优化等内容，提供可直接运行的代码示例，适合中高级Python开发者学习现代爬虫开发技术。关键词：Python爬虫、Scrapy、Playwright、动态页面爬取、反反爬策略、数据存储优化python# 文章基本信息title = scrapy.Field() # 文章标题。

参与评论您还未登录，请先登录后发表或查看评论

scrapy同时运行多个spider

weixin_33898233的博客

04-06

2269

2019独角兽企业重金招聘Python工程师标准>>> ...

scrapy启动多spider

1-|运维深似海

04-15

343

【代码】scrapy启动多spider。

python scrapy同时执行spiders多个爬虫

weixin_30429201的博客

04-28

254

假设spiders文件夹下多个文件： name.py name = 'name' name1.py name = 'name1' name2.py name = 'name2' ... 这里可以根据上篇文章http://www.cnblogs.com/chaihy/p/9044574.html 根据条件查询的列表，查询的时候可以设置where 前1000条，10...

Scrapy:一次性运行多个Spiders

woshizoe的专栏

05-12

2241

http://blog.csdn.net/iefreer/article/details/20677943 如果创建了多个Spider，希望通过cronjob一次性运行所有的Spiders，可以通过自定义Scrapy命令来实现。 1. 在你的Scrapy工程下面新建一个目录： cd path/to/your_project mkdir commands 注意这个com

【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程

小白一枚～

10-17

3711

本文适合刚接触python爬虫的小白，讲解如何使用 Scrapy 框架爬取豆瓣电影 TOP250 数据。通过环境配置、项目创建和编写爬虫的步骤，帮助你快速上手并掌握 Scrapy 的基本使用方法。

python Scrapy 框架 demo

杨杨杨~~的博客

09-29

1782

如果您觉得有用的话，记得给，写作不易啊^ _ ^。而且听说，实在白嫖的话，那欢迎常来啊!!!

Python爬虫学习-第四篇 Scrapy框架抓取唯品会数据

zq084100153的博客

11-01

2868

上篇博文讲述了scrapy的框架和组件，对于scrapy有了基本的了解，那么我们进入今天的正题：使用Scrapy框架爬取数据。 1.创建Scrapy项目创建Scrapy工程文件的命令： scrapy startproject scrapytest 此命令是python默认目下创建的工程。指定目录文件下创建项目： 1.进入指定目录 cd D:\workspaces ...

python爬虫教程--Scrapy爬虫之旅

小马哥的博客

03-14

2030

Python，Scrapy，爬虫，爬虫框架

Python爬虫之Scrapy（爬取csdn博客）

12-21

本博客介绍使用Scrapy爬取博客数据（标题，时间，链接，内容简介）。首先简要介绍Scrapy使用，scrapy安装自行百度安装。创建爬虫项目安装好scrapy之后，首先新建项目文件：scrapy startproject csdnSpider 创建项目之后会在相应的文件夹位置创建文件：创建爬虫模块首先编写爬虫模块，爬虫模块的代码都放置于spiders文件夹中。爬虫模块是用于从单个网站或者多个网站爬取数据的类，其应该包含初始页面的URL, 以及跟进网页链接、分析页面内容和提取数据函数。创建一个Spider类，需要继承scrapy.Spider类，并且定义以下三个属性： 1

scrapy一个项目中多个spider，同时并发执行

自成背后的博客

10-02

2776

一个项目中多个spider、item、pipeline的使用运行多个爬虫定义程序，集中启动在项目路径下创建crawl.py文件，内容如下： from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings process = CrawlerProcess(get_project_settings()) # myspd1是爬虫名 process.crawl('mys.

scrapy运行多个爬虫

zouzhe121的博客

10-24

1047

　一、创建spider　　1、创建多个spider，scrapy genspider spidername domain...

网络爬虫之Scrapy实战三：爬取多个网页CrawlSpider

05-19

8473

本文介绍了scrapy中CrawlSpider的用法

scrapy多个爬虫同时运行

every place is the center of the universe

08-16

613

运行爬虫 import datetime as dt #同时爬取 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings file_name_A="爬虫A"+dt.datetime.now().strftime('%Y-%m-%d') +".json" file_name_B="爬虫B"+dt.datetime.now().strftime('%Y-%m-%d') +".

scrapy框架中多个spider,tiems,pipelines的使用及运行方法

WCLEndless的博客

10-29

1813

用scrapy只创建一个项目，创建多个spider，每个spider指定items,pipelines.启动爬虫时只写一个启动脚本就可以全部同时启动。本文代码已上传至github,链接在文未。一，创建多个spider的scrapy项目 scrapy startproject mymultispider cd mymultispider scrapy genspider myspd1 sina.com.cn scrapy genspider myspd2 sina.com.cn scrapy...

python3.6.5爬虫之四：多线程同时爬取笔趣阁小说

热门推荐

Rainbow

05-06

3万+

之前爬取笔趣阁小说都是单一的一本小说，爬取多本一般也是一本爬取爬取完成再爬取下一本，本节主要是消除这个弊端，利用多线程同时爬取多本小说，这种方式比较适合，用高性能服务器来爬取数据，这个主要技巧是在之前的爬取单本小说的基础上加上多线程技术，废话不多说，来点干货。第一步：下载单本小说这部分就不详细讲解了，具体查看我之前写的博客python3.6.5爬虫之一：笔趣阁小说爬取（首页爬取法）第二...

Scrapy多个spider时item和PIPELINES的设置

Crryg_Gpc的博客

05-03

573

Scrapy多个spider时item和PIPELINES的设置：一.同时运行多个spider 在项目目录下创建crawl.py文件，代码如下： from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings runs = CrawlerProcess(get_project_settings()) runs.crawl("zt_ls")//spider1 name runs

一个scrapy项目做多个spider数据采集

weixin_42366065的博客

11-19

2934

一、scrapy多个spider爬取数据我们知道爬虫刚开始的时候，通过start_requests(self)方法把所有的url一次性传给调度器，后面的事情就是由调度器来完成的 start_requests(self)：方法的代码如下在第7行到10行然后我提醒一下，这个是我一个spider，不是多个spidr 我把截图拿出来是因为要让你们知道，我在讲的是哪一个spider 为什么要多个spider呢？答：一个spider就只能进行一个类型的链接的抓取，比如翻页操作，如果是其他的链接就不能抓取了，可

Python学习（三）：多线程写Python爬虫

Xu_sa_sa的博客

01-11

310

人人车网站为例总体框架： # 爬取人人车车辆信息 # 多线程/多进程：提高代码执行效率，提高爬取效率，实现使用多个多个进程对多个页面发起请求 from urllib.request import urlopen # 进程池: 比较方便，使用简单 from multiprocessing import Pool import re, sqlite3 class RRCSpi...