Scrapy-Redis与大数据处理框架集成：Spark与Flink方案-优快云博客

Scrapy-Redis与大数据处理框架集成：Spark与Flink方案

【免费下载链接】scrapy-redis Redis-based components for Scrapy. 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy-redis

Scrapy-Redis作为基于Redis的Scrapy分布式组件，为大规模网络爬虫提供了高效的任务调度和数据共享能力。本文将深入探讨如何将Scrapy-Redis与Spark、Flink等主流大数据处理框架进行集成，构建完整的分布式数据采集与处理 pipeline。通过实际案例和代码示例，展示从数据抓取到实时分析的全流程解决方案，帮助开发者应对海量数据处理场景中的挑战。

技术架构概览

Scrapy-Redis的核心价值在于通过Redis实现了分布式爬虫的协同工作，其架构主要包含三大组件：基于Redis的调度器(src/scrapy_redis/scheduler.py)、去重过滤器和分布式Item Pipeline(src/scrapy_redis/pipelines.py)。这种设计天然适合与大数据处理框架集成，形成数据采集-处理-分析的闭环系统。

集成架构图

mermaid

技术栈对比

特性	Scrapy-Redis	Spark	Flink
核心功能	分布式爬虫调度	批处理/流处理	实时流处理
数据模型	Key-Value	RDD/DataFrame	DataStream
处理延迟	毫秒级(爬虫)	分钟级(批处理)	毫秒级(流处理)
扩展性	水平扩展	横向扩展	横向扩展
容错机制	Redis持久化	RDD血缘	Checkpoint
适用场景	数据采集	离线分析	实时处理

环境准备与配置

基础环境要求

Python 3.7+
Redis >= 5.0
Scrapy >= 2.0
redis-py >= 4.0
Spark 3.0+
Flink 1.12+

项目依赖安装

通过pip安装Scrapy-Redis核心依赖：

pip install scrapy-redis

如需从源码安装最新版本：

git clone https://gitcode.com/gh_mirrors/sc/scrapy-redis
cd scrapy-redis
python setup.py install

Redis配置优化

为适应大数据量传输，需对Redis进行性能调优，修改redis.conf文件：

# 提高最大内存限制
maxmemory 4gb
# 设置内存淘汰策略
maxmemory-policy volatile-lru
# 开启持久化
appendonly yes
# 调整网络参数
tcp-backlog 511
timeout 300

与Spark集成方案

Spark作为强大的批处理框架，适合对Scrapy-Redis抓取的历史数据进行离线分析。集成方式主要有两种：通过Redis数据源直接读取和通过中间文件系统间接读取。

方案一：Spark直接读取Redis

利用Spark-Redis连接器，直接从Redis中读取Scrapy-Redis存储的Item数据。这种方式适用于中小规模数据处理。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ScrapyRedisSparkIntegration") \
    .config("spark.redis.host", "localhost") \
    .config("spark.redis.port", "6379") \
    .config("spark.redis.auth", "password") \
    .getOrCreate()

# 读取Redis中的Scrapy Item数据
df = spark.read \
    .format("org.apache.spark.sql.redis") \
    .option("table", "scrapy:items") \
    .option("key.column", "id") \
    .load()

# 数据清洗与转换
cleaned_df = df.filter(df["price"] > 0) \
               .withColumn("timestamp", df["timestamp"].cast("timestamp"))

# 保存到数据仓库
cleaned_df.write \
    .mode("append") \
    .parquet("hdfs:///data/scrapy/parquet")

方案二：基于文件系统的集成

对于大规模数据处理，建议采用"Scrapy-Redis → 文件系统 → Spark"的架构，通过Scrapy-Redis的Pipeline将数据写入HDFS或S3，再由Spark进行批处理分析。

修改Scrapy配置文件settings.py，配置自定义Pipeline：

ITEM_PIPELINES = {
    'myproject.pipelines.HDFSPipeline': 300,
}

# HDFS Pipeline配置
HDFS_OUTPUT_PATH = 'hdfs://namenode:9000/scrapy_data/'
HDFS_BATCH_SIZE = 1000  # 每1000条Item写一次文件
HDFS_FILE_FORMAT = 'json'  # 支持json, csv, parquet

HDFS Pipeline实现示例：

from scrapy.exporters import JsonItemExporter
from hdfs import InsecureClient

class HDFSPipeline(object):
    def __init__(self, hdfs_path, batch_size, file_format):
        self.hdfs_path = hdfs_path
        self.batch_size = batch_size
        self.file_format = file_format
        self.items = []
        self.client = InsecureClient('http://namenode:50070')
        
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            hdfs_path=crawler.settings.get('HDFS_OUTPUT_PATH'),
            batch_size=crawler.settings.get('HDFS_BATCH_SIZE'),
            file_format=crawler.settings.get('HDFS_FILE_FORMAT')
        )
        
    def process_item(self, item, spider):
        self.items.append(item)
        if len(self.items) >= self.batch_size:
            self._export_items(spider)
        return item
        
    def _export_items(self, spider):
        import time
        timestamp = int(time.time())
        filename = f"{self.hdfs_path}{spider.name}/{timestamp}.{self.file_format}"
        
        with self.client.write(filename, overwrite=True) as writer:
            exporter = JsonItemExporter(writer)
            exporter.start_exporting()
            for item in self.items:
                exporter.export_item(item)
            exporter.finish_exporting()
            
        self.items.clear()
        
    def close_spider(self, spider):
        if self.items:
            self._export_items(spider)

Spark读取HDFS数据进行分析：

val spark = SparkSession.builder()
    .appName("ScrapyDataAnalysis")
    .getOrCreate()

// 读取JSON格式数据
val df = spark.read.json("hdfs:///scrapy_data/*/*.json")

// 数据分析示例：计算各域名的抓取频率
val domainStats = df.groupBy("domain")
    .count()
    .orderBy(desc("count"))

// 结果保存到Parquet格式
domainStats.write
    .mode("overwrite")
    .parquet("hdfs:///analysis_results/domain_stats")

与Flink实时集成

Flink作为流处理领域的佼佼者，能够实时处理Scrapy-Redis产生的数据流，适用于需要实时监控和即时响应的场景。集成方式主要有两种：通过Redis Connector直接消费数据和通过Kafka作为中间件实现解耦。

直接Redis连接方案

Flink提供了Redis Connector，可以直接从Redis列表中读取Scrapy-Redis输出的Item数据。这种方式实现简单，但在高吞吐量场景下可能对Redis造成压力。

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.redis.RedisSource;
import org.apache.flink.streaming.connectors.redis.common.config.FlinkJedisPoolConfig;
import org.apache.flink.streaming.connectors.redis.common.mapper.RedisCommand;
import org.apache.flink.streaming.connectors.redis.common.mapper.RedisCommandDescription;
import org.apache.flink.streaming.connectors.redis.common.mapper.RedisMapper;

public class ScrapyFlinkIntegration {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        
        // 配置Redis连接
        FlinkJedisPoolConfig conf = new FlinkJedisPoolConfig.Builder()
            .setHost("localhost")
            .setPort(6379)
            .setPassword("password")
            .build();
            
        // 创建Redis Source
        RedisSource<String> redisSource = new RedisSource<>(conf, new ScrapyRedisMapper());
        
        // 处理数据流
        env.addSource(redisSource)
            .map(new JsonDeserializer())  // 自定义JSON反序列化器
            .filter(item -> item.getPrice() > 0)  // 过滤无效数据
            .keyBy(Item::getCategory)  // 按类别分组
            .timeWindow(Time.minutes(5))  // 5分钟滚动窗口
            .sum("count")  // 计算每个类别的数量
            .print();  // 输出结果
            
        env.execute("Scrapy-Redis Flink Integration");
    }
    
    public static class ScrapyRedisMapper implements RedisMapper<String> {
        @Override
        public RedisCommandDescription getCommandDescription() {
            // 对应Scrapy-Redis的Item队列键名，使用BRPOP命令读取
            return new RedisCommandDescription(RedisCommand.BRPOP, "items:myspider");
        }
        
        @Override
        public String getKeyFromData(String data) {
            // 不需要键，返回null
            return null;
        }
        
        @Override
        public String getValueFromData(String data) {
            // 返回完整的JSON数据
            return data;
        }
    }
}

Kafka中间件方案

为提高系统弹性和可扩展性，推荐使用Kafka作为Scrapy-Redis和Flink之间的中间件。Scrapy-Redis先将Item数据写入Kafka，Flink再从Kafka消费数据进行处理，实现生产和消费的解耦。

首先，修改Scrapy-Redis的Pipeline，将数据写入Kafka：

from scrapy.utils.serialize import ScrapyJSONEncoder
from kafka import KafkaProducer
from twisted.internet.threads import deferToThread

class KafkaPipeline:
    def __init__(self, bootstrap_servers, topic_prefix):
        self.bootstrap_servers = bootstrap_servers
        self.topic_prefix = topic_prefix
        self.encoder = ScrapyJSONEncoder()
        self.producer = KafkaProducer(
            bootstrap_servers=bootstrap_servers,
            value_serializer=lambda v: self.encoder.encode(v).encode('utf-8')
        )
        
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            bootstrap_servers=crawler.settings.get('KAFKA_BOOTSTRAP_SERVERS', 'localhost:9092'),
            topic_prefix=crawler.settings.get('KAFKA_TOPIC_PREFIX', 'scrapy_')
        )
        
    def process_item(self, item, spider):
        topic = f"{self.topic_prefix}{spider.name}"
        return deferToThread(self._send_to_kafka, item, topic)
        
    def _send_to_kafka(self, item, topic):
        self.producer.send(topic, item)
        return item
        
    def close_spider(self, spider):
        self.producer.flush()
        self.producer.close()

在Scrapy配置中启用Kafka Pipeline：

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300,  # 保留Redis备份
    'myproject.pipelines.KafkaPipeline': 400,     # 添加Kafka Pipeline
}

KAFKA_BOOTSTRAP_SERVERS = 'kafka-broker1:9092,kafka-broker2:9092'
KAFKA_TOPIC_PREFIX = 'scrapy_'

Flink从Kafka消费数据进行实时处理：

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer
import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.JsonNode
import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.ObjectMapper

object ScrapyFlinkStreaming {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    
    // 配置Kafka消费者
    val properties = new java.util.Properties()
    properties.setProperty("bootstrap.servers", "kafka-broker1:9092,kafka-broker2:9092")
    properties.setProperty("group.id", "scrapy-flink-consumer")
    
    // 创建Kafka数据源
    val consumer = new FlinkKafkaConsumerString,
      properties
    )
    
    // 设置从最新位置开始消费
    consumer.setStartFromLatest()
    
    // 读取数据流
    val stream = env.addSource(consumer)
    
    // JSON解析
    val jsonStream = stream.map { jsonStr =>
      val mapper = new ObjectMapper()
      mapper.readTree(jsonStr)
    }
    
    // 实时处理逻辑：检测价格异常波动
    val priceAlerts = jsonStream
      .keyBy(_.get("product_id").asText())
      .timeWindow(Time.minutes(10), Time.minutes(5))  // 10分钟窗口，5分钟滑动
      .aggregate(new PriceChangeDetector())
    
    // 输出异常警报
    priceAlerts.print()
    
    env.execute("Scrapy Real-time Price Monitoring")
  }
  
  // 价格变化检测器
  class PriceChangeDetector extends AggregateFunction[JsonNode, (Double, Double), (String, Double, Double)] {
    override def createAccumulator(): (Double, Double) = (0.0, 0.0)
    
    override def add(value: JsonNode, accumulator: (Double, Double)): (Double, Double) = {
      val price = value.get("price").asDouble()
      (math.min(price, accumulator._1), math.max(price, accumulator._2))
    }
    
    override def getResult(accumulator: (Double, Double)): (String, Double, Double) = {
      val (minPrice, maxPrice) = accumulator
      val changeRate = (maxPrice - minPrice) / minPrice * 100
      ("price_change_alert", changeRate, minPrice)
    }
    
    override def merge(a: (Double, Double), b: (Double, Double)): (Double, Double) = {
      (math.min(a._1, b._1), math.max(a._2, b._2))
    }
  }
}

性能优化策略

Redis性能调优

Redis作为Scrapy-Redis和大数据框架之间的桥梁，其性能直接影响整个系统的吞吐量。以下是针对集成场景的Redis优化建议：

合理选择数据结构：
- 使用List结构存储爬虫任务队列(src/scrapy_redis/queue.py)
- 采用Hash结构存储去重指纹
- 考虑使用Sorted Set实现优先级队列

内存优化：

# redis.conf
maxmemory 16gb
maxmemory-policy allkeys-lru
hash-max-ziplist-entries 512
hash-max-ziplist-value 64

网络优化：

tcp-keepalive 300
repl-backlog-size 1gb

数据序列化方案

选择高效的序列化方式可以显著提升数据传输和存储效率：

序列化方式	优点	缺点	适用场景
JSON	可读性好，通用性强	体积大，性能一般	调试环境，小规模数据
MessagePack	体积小，性能好	可读性差	生产环境，高性能要求
Protocol Buffers	结构化，可扩展	定义复杂	长期存储，跨语言交互

修改Scrapy-Redis的序列化方式：

# settings.py
SCHEDULER_SERIALIZER = 'myproject.serializers.MessagePackSerializer'

# serializers.py
import msgpack

class MessagePackSerializer:
    @staticmethod
    def dumps(obj):
        return msgpack.dumps(obj, use_bin_type=True)
        
    @staticmethod
    def loads(data):
        return msgpack.loads(data, raw=False)

分布式部署最佳实践

Docker Compose提供了便捷的多容器部署方式，适合中小规模的集成环境。项目中提供了docker-compose.yaml文件，可作为部署参考。

扩展的Docker Compose配置示例：

version: '3'

services:
  redis:
    image: redis:6.2-alpine
    command: redis-server --appendonly yes --maxmemory 8gb --maxmemory-policy allkeys-lru
    volumes:
      - redis-data:/data
    ports:
      - "6379:6379"
    networks:
      - scrapy-network

  scrapy-master:
    build: .
    command: scrapy crawl myspider
    volumes:
      - ./example-project:/app
    environment:
      - REDIS_HOST=redis
      - SPIDER_MODE=master
    depends_on:
      - redis
    networks:
      - scrapy-network

  scrapy-worker:
    build: .
    command: scrapy crawl myspider
    volumes:
      - ./example-project:/app
    environment:
      - REDIS_HOST=redis
      - SPIDER_MODE=worker
    depends_on:
      - redis
    deploy:
      replicas: 5
    networks:
      - scrapy-network

  kafka:
    image: confluentinc/cp-kafka:7.0.0
    depends_on:
      - zookeeper
    environment:
      - KAFKA_BROKER_ID=1
      - KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181
      - KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://kafka:9092
      - KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR=1
    networks:
      - scrapy-network

  zookeeper:
    image: confluentinc/cp-zookeeper:7.0.0
    environment:
      - ZOOKEEPER_CLIENT_PORT=2181
    networks:
      - scrapy-network

  flink-jobmanager:
    image: flink:1.14.3-scala_2.12
    command: jobmanager
    ports:
      - "8081:8081"
    environment:
      - JOB_MANAGER_RPC_ADDRESS=flink-jobmanager
    networks:
      - scrapy-network

  flink-taskmanager:
    image: flink:1.14.3-scala_2.12
    command: taskmanager
    depends_on:
      - flink-jobmanager
    environment:
      - JOB_MANAGER_RPC_ADDRESS=flink-jobmanager
    deploy:
      replicas: 3
    networks:
      - scrapy-network

networks:
  scrapy-network:

volumes:
  redis-data:

监控与运维

关键指标监控

为确保集成系统稳定运行，需要监控以下关键指标：

Scrapy-Redis指标：
- 爬虫队列长度
- 请求成功率
- 去重率
- Item产出速度
Redis指标：
- 内存使用率
- 键数量
- 命中率
- 网络吞吐量
大数据框架指标：
- Spark/Flink作业吞吐量
- 延迟
- 资源使用率
- Checkpoint成功率

监控系统搭建

使用Prometheus和Grafana搭建监控系统，示例配置如下：

Scrapy-Redis指标暴露：

from prometheus_client import Counter, Gauge, Histogram, start_http_server
import threading

# 定义指标
REQUEST_COUNT = Counter('scrapy_requests_total', 'Total number of scrapy requests', ['spider', 'status'])
ITEM_COUNT = Counter('scrapy_items_total', 'Total number of scraped items', ['spider'])
QUEUE_SIZE = Gauge('scrapy_queue_size', 'Current size of the scrapy queue', ['spider'])
RESPONSE_TIME = Histogram('scrapy_response_time_seconds', 'Response time in seconds', ['spider'])

class PrometheusMiddleware:
    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        # 启动指标暴露HTTP服务
        start_http_server(8000)
        return middleware
        
    def process_response(self, request, response, spider):
        REQUEST_COUNT.labels(spider=spider.name, status=response.status).inc()
        return response
        
    def process_exception(self, request, exception, spider):
        REQUEST_COUNT.labels(spider=spider.name, status='error').inc()
        return None

Prometheus配置：

scrape_configs:
  - job_name: 'scrapy'
    static_configs:
      - targets: ['scrapy-master:8000', 'scrapy-worker:8000']
  
  - job_name: 'redis'
    static_configs:
      - targets: ['redis-exporter:9121']
  
  - job_name: 'spark'
    static_configs:
      - targets: ['spark-master:4040']
  
  - job_name: 'flink'
    static_configs:
      - targets: ['flink-jobmanager:9249']

Grafana Dashboard：

创建包含以下面板的Grafana仪表盘：

爬虫请求与Item趋势图
队列长度变化
响应时间分布
系统资源使用率
异常警报

实际案例分析

电商价格监控系统

某电商数据分析公司使用Scrapy-Redis+Flink构建了实时价格监控系统，实现对10万+商品的价格变动监控和异常检测。

系统架构：

mermaid

关键实现细节：

Scrapy-Redis配置：

# settings.py
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = "redis://redis:6379/0"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.PriorityQueue"

Flink异常检测算法：
- 使用指数移动平均(EMA)计算价格基准线
- 当实际价格偏离基准线超过阈值时触发警报
- 动态调整检测阈值，避免季节性波动误报
系统规模：
- 50个爬虫节点
- 日均抓取1000万页面
- 实时处理延迟<5秒
- 日均检测异常价格2000+次

舆情分析平台

某媒体公司利用Scrapy-Redis+Spark构建了舆情分析平台，抓取各大门户网站和社交媒体内容，进行情感分析和热点追踪。

系统亮点：

分布式抓取策略：
- 按域名分片，避免单点压力
- 动态调整抓取频率，遵守robots协议
- 增量抓取，只处理更新内容

Spark批处理流程：

// 情感分析UDF
val sentimentAnalyzer = udf { (text: String) =>
  // NLP情感分析逻辑
  Analyzer.analyze(text)
}

// 数据处理管道
val result = rawData
  .filter("content is not null")
  .withColumn("sentiment", sentimentAnalyzer(col("content")))
  .withColumn("keywords", extractKeywords(col("content")))
  .groupBy(col("date"), col("keyword"))
  .agg(avg("sentiment").as("avg_sentiment"), count("*").as("count"))

可视化展示：
- 热点话题时间线
- 情感变化趋势图
- 地域分布热力图
- 关键词关联网络

总结与展望

Scrapy-Redis与大数据框架的集成构建了强大的数据采集与处理生态系统，通过本文介绍的方案，开发者可以灵活应对不同规模和实时性要求的数据处理场景。未来，随着边缘计算和实时AI的发展，这一集成方案将向更实时、更智能的方向演进。

技术选型建议

场景	推荐方案	优势
大规模离线分析	Scrapy-Redis + Spark	处理能力强，生态完善
实时监控告警	Scrapy-Redis + Flink	低延迟，高可靠
混合处理需求	Scrapy-Redis + Kafka + Spark/Flink	灵活扩展，解耦架构
资源受限环境	Scrapy-Redis单机模式 + 轻量级Spark	部署简单，资源占用小

未来发展方向

流批一体：随着Flink和Spark对统一计算模型的支持，未来将实现真正的流批一体处理。
AI增强：在数据处理流程中嵌入AI模型，实现智能抓取调度和内容理解。
云原生部署：结合Kubernetes实现弹性伸缩，进一步优化资源利用率。
边缘计算集成：将部分处理能力下沉到边缘节点，降低中心节点压力。

通过持续优化和创新，Scrapy-Redis与大数据框架的集成将在数据驱动决策中发挥越来越重要的作用，为各行各业提供更强大的数据分析能力。

本文档示例代码和配置可在项目仓库的example-project目录中找到实际应用参考。更多高级用法和最佳实践，请参考官方文档docs/。

附录：常用配置参考

Scrapy-Redis核心配置

# settings.py
# 启用Redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 启用Redis去重过滤器
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# Redis连接配置
REDIS_URL = "redis://username:password@host:port/db"

# 调度器配置
SCHEDULER_PERSIST = True  # 是否持久化队列
SCHEDULER_FLUSH_ON_START = False  # 启动时是否清空队列
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.PriorityQueue"  # 队列类型
SCHEDULER_IDLE_BEFORE_CLOSE = 10  # 空闲关闭时间

# Item Pipeline配置
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300,
}
REDIS_ITEMS_KEY = '%(spider)s:items'  # Item存储键名
REDIS_ITEMS_SERIALIZER = 'json.dumps'  # 序列化方式

Spark集成参数调优

# spark-defaults.conf
spark.executor.memory 8g
spark.driver.memory 4g
spark.executor.cores 4
spark.sql.shuffle.partitions 200
spark.default.parallelism 100
spark.memory.offHeap.enabled true
spark.memory.offHeap.size 2g

Flink配置优化

# flink-conf.yaml
jobmanager.memory.process.size: 4096m
taskmanager.memory.process.size: 16384m
taskmanager.numberOfTaskSlots: 8
parallelism.default: 16
state.backend: rocksdb
state.checkpoints.dir: hdfs:///flink/checkpoints
state.savepoints.dir: hdfs:///flink/savepoints
execution.checkpointing.interval: 5min
execution.checkpointing.mode: EXACTLY_ONCE

通过本文介绍的方案和最佳实践，开发者可以构建高效、可靠的分布式数据采集与处理系统，充分发挥Scrapy-Redis和大数据框架的协同优势，应对日益增长的数据处理挑战。无论是构建实时监控系统还是进行大规模数据分析，这些集成方案都能提供坚实的技术基础，助力业务价值的实现。

希望本文提供的内容能够帮助您更好地理解和应用Scrapy-Redis与大数据框架的集成技术。如有任何问题或建议，欢迎通过项目贡献指南参与讨论和贡献。

提示：定期查看项目历史更新记录，了解最新功能和改进，确保您的集成方案始终基于最新版本。对于生产环境部署，建议参考项目提供的Docker配置和Docker Compose模板，简化部署流程并提高系统可靠性。

【免费下载链接】scrapy-redis Redis-based components for Scrapy. 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy-redis

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考