scrapy分布式爬虫部署

本文详细介绍了如何在Scrapy爬虫项目中集成Redis,包括下载和配置scrapy_redis模块,修改爬虫文件,配置远程MySQL和Redis,以及解决常见问题如数据写入数据库失败等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来自包子的傲娇

  1. 下载scrapy_redis模块包
  2. 打开自己的爬虫项目,找到settings文件,配置scrapy项目使用的调度器及过滤器
    在这里插入图片描述
    在这里插入图片描述
    3:修改自己的爬虫文件
    在这里插入图片描述
    4:.如果连接的有远程服务,例如MySQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够成功连接

在这里插入图片描述
在这里插入图片描述
5:配置远程连接的MySQL及redis地址
在这里插入图片描述

6:上面的工作做完以后,开启我们的redis服务器
1:下载网址: https://github.com/MicrosoftArchive/redis/releases
在这里插入图片描述
等待下载完成
2:下载完成后进入到redis文件下打开我们的cmd窗口:输入:redis-server redis.windows.conf
在这里插入图片描述
出现上图效果说明安装成功
出现错误:# Creating Server TCP listening socket 127.0.0.1:6379: bind: No error
解决方法:在命令行中运行
redis-cli
127.0.0.1:6379>shutdown
not connected>exit
然后重新运行redis-server redis.windows.conf,启动成功!

7:修改redis.windows.conf配置文件,修改内容如下:

# 配置远程IP地址,供其他的电脑进行连接redis
bind: (当前电脑IP) (192.168.40.217)

# 关闭redis保护模式
protected-mode: no

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
8:所有爬虫都启动之后,部署redis-server服务的电脑再打开一个命令窗口,输入redis-cli.exe -h 127.0.0.1(如果是自己的ip改成自己的IP地址) -p 6379连上服务端

9:连上之后会有127.0.0.1:6379>这样的字样提示,然后输入如下命令

10:lpush 爬虫文件里面自己定义的爬虫名字:start_urls 爬虫的网址

12:数据写不进去数据库里面:
修改MySQL的my.ini文件,以MySQL8为例
路径在C:\ProgramData\MySQL\MySQL Server 8.0
找到sql-mode="STRICT_TRANS_TABLES,NO_ENGINE_SUBSTITUTION"这一行
把里面的STRICT_TRANS_TABLES,删除,逗号也删除,保存文件
修改过之后需要重启mysql服务
在windows命令窗口中使用net stop mysql80先停止服务,再使用net start mysql80启动服务
如果my.ini文件不修改,爬虫的数据写入不了数据库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值