
scrapy
Python伊甸园
这个作者很懒,什么都没留下…
展开
-
如何编写分布式爬虫
一、更改父类为redis的类1、将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider;2、或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。from scrapy_redis.spiders import RedisCrawlSpider以Crawlspider为例:二、调整起始url1.将爬虫中的start_urls删掉。2.增加一个redi.原创 2021-10-17 13:50:12 · 380 阅读 · 0 评论 -
配置其他机器连接Redis
一、前言 Redis可以当作中间商分发URL,存储数据,但是这个前提是需要别的机器可以同时连接Redis。 假设现在启动一个redis服务器:redis-server.exe redis.windows.conf 通过linux上的redis来连接,连接方式如下格式: redis-cli -h [ip] -p [端口]查看redis服务器ip:命令行窗口输入:【ipconfig】因此,连接命令为: redis-cli -h...原创 2021-10-17 13:40:42 · 5442 阅读 · 0 评论 -
centos7安装redis
1、由于 redis 是用 C 语言开发,安装之前必先确认是否安装 gcc 环境(gcc -v),如下显示则表示没有安装2. 如果没有安装,执行以下命令进行安装:#如果无法安装,先配置yum源yum install -y gcc【配置yum源:亲试可用】cd /etc/yum.repos.d/mv CentOS-Base.repo CentOS-Base.repo.backupwget http://mirrors.163.com/.help/CentOS6-Ba..原创 2021-10-16 15:12:51 · 240 阅读 · 0 评论 -
redis-desktop-manager安装
1.双击【redis-desktop-manager-0.8.8.384.exe】文件2.点击【Next】3.点击【I Agree】4.自己创建一个全英文、无空格的空文件夹下,然后点击【Install】5.等待安装完成即可。6.点击【Next】7. 无需勾选且点击【Finish】完成安装。8.测试是否安装成功。(1)双击打开(2)点击【×】关闭。(3)点击【Close】关闭(4)点击【Connect...原创 2021-10-14 16:23:30 · 1347 阅读 · 0 评论 -
谈一下分布式爬虫
Redis下载地址:https://github.com/tporadowski/redis/releases原创 2021-10-14 14:32:55 · 4454 阅读 · 0 评论 -
如何安装Redis?
一、wins系统下安装1.首先需要下载redis,下载链接为:https://github.com/tporadowski/redis/releases选择一个版本下载,以下载安装【Redis-x64-5.0.10】为例。2.下载完成后,双击【Redis-x64-5.0.10】3.然后按照以下步骤进行安装:(1)点击【Next】(2)勾选同意协议,然后点击【Next】(3)选择任意一个磁盘,创建一个名为【Redis】的空文件夹。本例以E盘为例,对...原创 2021-10-11 22:42:48 · 499 阅读 · 0 评论 -
如何使用scrapy下载图片
Scrapy自带有ImagesPipeline:当使用ImagesPipeline下载文件的时候,按照以下步骤来完成:1、定义好一个Item,然后在这个item中定义两个属性,分别为image_urls以及images。image_urls是用来存储需要下载的图片的url链接,需要给一个列表。2、当文件下载完成后,会把文件下载的相关信息存储到item的images属性中。比如下载路径、下载的url和图片的校验码等。3、在配置文件settings.py中配置IMAGES_STORE,这个配置.原创 2021-10-07 18:13:50 · 744 阅读 · 0 评论 -
scrapy框架——下载器中间件(Downloader Middlewares)
一、什么是下载器中间件? 简单来说,下载器中间件就是引擎和下载器之间通信的中间件。主要目的用来更换请求头、设置代理IP来达到应对网站反爬的情况。 举个例子来说:1、在我们频繁访问一个页面时,如果请求头一直保持一致,那么就很容易被服务器发现,从而禁止掉这个请求头访问,那么我们就需要设置请求头中间件来应对网站反爬。2、同样的,我们也可以通过设置 代理IP 来应对网站反爬。 这就是设置下载器中间件的原因与方法。二、如何设置下载器中间件? 自行定义...原创 2021-09-30 11:19:45 · 1313 阅读 · 0 评论