python---分布式爬虫

最新推荐文章于 2024-04-03 20:15:26 发布

原创最新推荐文章于 2024-04-03 20:15:26 发布 · 348 阅读

0 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

27 篇文章

订阅专栏

本文介绍如何利用Scrapy-Redis实现分布式爬虫，通过Redis作为中间件管理URL请求和结果，实现多节点爬取中国红娘网数据，避免重复抓取，提升效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、scrapy-redis

redis 是高性能的 key-value 数据库。我们知道 MongoDB 将数据保存在了硬盘里，而 Redis 的神奇之处在于它将数据保存在了内存中，因此带来了更高的性能。

二、分布式原理

回顾 scrapy 框架，我们首先给定一些start_urls，spider 最先访问 start_urls 里面的 url，再根据我们的 parse 函数，对里面的元素、或者是其他的二级、三级页面进行抓取。而要实现分布式，只需要在这个starts_urls里面做文章就行了。进一步描述如下：

master 产生 starts_urls，url 会被封装成 request 放到 redis 中的 spider:requests，总的 scheduler 会从这里分配 request，当这里的 request 分配完后，会继续分配 start_urls 里的 url。
slave 从 master 的 redis 中取出待抓取的 request，下载完网页之后就把网页的内容发送回 master 的 redis，key 是 spider:items。scrapy 可以通过 settings 来让 spider 爬取结束之后不自动关闭，而是不断的去询问队列里有没有新的 url，如果有新的 url，那么继续获取 url 并进行爬取，所以这一过程将不断循环。
master 里的 reids 还有一个 key 是 “spider:dupefilter” 用来存储抓取过的 url 的 fingerprint（使用哈希函数将url运算后的结果），防止重复抓取，只要 redis 不清空，就可以进行断点续爬。

三、爬取中国红娘网

爬虫文件（单机操作）

# -*- coding: utf-8 -*-
import scrapy
from ..items import RedishongniangItem
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy_redis.spiders import RedisCrawlSpider

class HongniangSpider(RedisCrawlSpider):
    name = 'hongniang'
    allowed_domains = ['hongniang.com']
    #注意这里和单机爬虫的写法区别
    redis_key = 'hongniangspider:start_urls'

    page_link = LinkExtractor(allow=r'http://www.hongniang.com/index/search?sort=0&wh=0&sex=2&starage=1&province=%E6%B2%B3%E5%8D%97&city=%E9%83%91%E5%B7%9E&page=1')

    person_link = LinkExtractor(allow=r'http://www.hongniang.com/user/member/id/\d+')

    rules = (
        Rule(page_link,True),
        Rule(person_link, callback='get_detail',follow=False)
    )

    def get_detail(self,response):
        name = response.xpath('//div[@class="name nickname"]/text()').get()
        print(name)
        age = response.xpath('//div[@class="info2"]//ul[1]/li[1]/text()').get()
        print(age)

        item = RedishongniangItem()
        item['name'] = name
        item['age'] = age

        yield item