scrapy多爬虫以及爬取速度

最新推荐文章于 2025-10-18 06:25:58 发布

原创最新推荐文章于 2025-10-18 06:25:58 发布 · 6.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #框架 #scrapy

python爬虫同时被 2 个专栏收录

1 篇文章

订阅专栏

scrapy

1 篇文章

订阅专栏

本文介绍了一种利用Scrapy框架进行多爬虫部署的方法，适用于需要同时抓取多个不同结构网站的情况。通过创建commands目录及crawlall.py文件，实现了多爬虫的统一调度，并对配置进行了详细说明。

    主要这段时间一直使用的就是scrapy这个框架，因为公司里面需要爬取大量的网站，所以才使用了多爬虫，但是目前测试也只是几十个，一直也想不到更好的方法去同时抓取成千上百个结构不同的网站，所以也很是苦逼的用了scrapy里面的多爬虫，对每个网站分别解析，还好虽然几次改需求但是字段都是统一的，可以很轻松的通过itempipline去入库。
    像多爬虫这个东西，我也是参考一些大牛发的博客，文档什么的，是通过创建commands目录来实现多爬虫爬取。
    废话不多说，我们创建commands目录的时候必须注意commands和spiders目录是同级的，在commands下面添加一个文件crawlall.py，里面的内容都是固定的。crawl的源码可以在此查看：https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py

步骤就是：
1、mkdir commands
2、commands创建文件crawlall.py,把源码复制粘贴过去
3、不要忘记创建一个_init_文件，这个如果忘了的话也是不行的
4、settings.py目录下创建setup.py，这一步我并没有做，但是好多都说需要写上这一步，我就在这添加上吧。
附上里面的代码

    from setuptools import setup, find_packages
    setup(name='scrapy-mymodule',
    entry_points={
    'scrapy.commands': [
    'crawlall=cnblogs.commands:crawlall',
    ],
     },
     )

这个文件的含义是定义了一个crawlall命令，cnblogs.commands为命令文件目录，crawlall为命令名。
5. 在settings.py中添加配置：

    COMMANDS_MODULE = 'cnblogs.commands'

这个千万不能忘，settings毕竟掌控着各大文件

然后我们运行代码的时候可以创建一个run.py,附上我的run文件的代码

# coding:utf-8
from scrapy import cmdline
import sys,os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
if __name__=="__main__":
cmdline.execute(['scrapy','crawlall'])

运行的时候我们只需要运行run.py所有的spider就会跑起来了。

因为文件比较多，所以这时候我们需要在settings下面添加