深入理解Apify/Crawlee中的请求存储机制

最新推荐文章于 2025-06-07 09:22:42 发布

左萱莉Maude

最新推荐文章于 2025-06-07 09:22:42 发布

阅读量236

点赞数 5

本文链接：https://blog.youkuaiyun.com/gitblog_01047/article/details/148375089

版权

深入理解Apify/Crawlee中的请求存储机制

crawlee Crawlee—A web scraping and browser automation library for Node.js that helps you build reliable crawlers. Fast. 项目地址: https://gitcode.com/gh_mirrors/cr/crawlee

前言

在Web爬虫开发中，如何高效地管理和存储待处理的请求(URL)是一个核心问题。Apify/Crawlee项目提供了两种主要的请求存储机制：请求队列(Request Queue)和请求列表(Request List)。本文将深入解析这两种机制的特点、使用场景和最佳实践，帮助开发者更好地构建高效的爬虫应用。

存储基础

Crawlee的所有存储默认都会将数据持久化到本地磁盘，存储目录由CRAWLEE_STORAGE_DIR环境变量指定。如果未设置该变量，默认会使用当前工作目录下的./storage目录。

请求队列(Request Queue)

基本概念

请求队列是Crawlee中最常用的请求存储机制，它特别适合需要动态添加URL的深度爬取场景。这种数据结构既支持广度优先(BFS)也支持深度优先(DFS)的爬取顺序。

每个Crawlee运行实例都会关联一个默认请求队列，通常用于存储该次爬取任务的所有URL。队列的ID默认为default，也可以通过CRAWLEE_DEFAULT_REQUEST_QUEUE_ID环境变量覆盖。

存储结构

请求队列由MemoryStorage类管理，数据不仅保存在内存中，还会持久化到本地文件系统：

{CRAWLEE_STORAGE_DIR}/request_queues/{QUEUE_ID}/entries.json

其中entries.json文件包含了所有请求的JSON数组。

核心优势

动态增删：可以在爬取过程中随时添加或移除请求
灵活排序：支持多种爬取顺序策略
持久化：即使程序中断也能恢复爬取状态

使用示例

import { RequestQueue, PuppeteerCrawler } from 'crawlee';

// 创建或获取请求队列实例
const requestQueue = await RequestQueue.open();

// 添加初始请求
await requestQueue.addRequest({ url: 'https://example.com' });

// 创建爬虫实例
const crawler = new PuppeteerCrawler({
    requestQueue,
    async requestHandler({ request, page }) {
        // 处理页面逻辑
        
        // 动态添加新请求
        await requestQueue.addRequest({
            url: 'https://example.com/new-page',
            userData: { sourceUrl: request.url }
        });
    }
});

await crawler.run();

请求列表(Request List)

基本概念

请求列表是一种轻量级的请求存储机制，适用于已知所有待爬取URL且不需要动态添加的场景。它本质上是一个存储在内存中的URL列表（也可以选择存储在默认键值存储中）。

核心特点

不可变性：初始化后不能再添加或删除URL
高性能：适合处理大批量已知URL
简单轻量：没有队列的复杂管理开销

使用场景

爬取固定的URL集合
从外部文件导入大量已知URL
不需要动态发现新URL的简单爬取任务

使用示例

import { RequestList, PuppeteerCrawler } from 'crawlee';

// 准备URL源数组
const sources = [
    { url: 'https://example.com/page1' },
    { url: 'https://example.com/page2' },
    { url: 'https://example.com/page3' }
];

// 创建请求列表
const requestList = await RequestList.open('my-list', sources);

// 创建爬虫实例
const crawler = new PuppeteerCrawler({
    requestList,
    async requestHandler({ page, request }) {
        // 处理页面逻辑
        // 这里不能添加新URL到请求列表
    }
});

await crawler.run();

如何选择合适的存储机制

请求队列 vs 请求列表

| 特性 | 请求队列 | 请求列表 | |------|---------|---------| | 动态增删 | 支持 | 不支持 | | 处理大量URL | 较慢 | 快速 | | 内存占用 | 较高 | 较低 | | 使用复杂度 | 较高 | 简单 | | 适用场景 | 深度爬取、动态发现 | 固定URL集合、大批量处理 |

选择建议

需要动态添加URL：必须使用请求队列
处理数百万已知URL：优先考虑请求列表
混合场景：虽然技术上可以两者结合，但现在更推荐使用请求队列的addRequests()批量添加功能

批量添加示例

import { RequestQueue, PuppeteerCrawler } from 'crawlee';

// 创建请求队列
const requestQueue = await RequestQueue.open();

// 准备大批量URL
const sources = Array(1000).fill().map((_, i) => ({
    url: `https://example.com/page-${i}`
}));

// 批量添加请求（高效方式）
await requestQueue.addRequests(sources);

// 创建爬虫实例
const crawler = new PuppeteerCrawler({
    requestQueue,
    async requestHandler({ request, page }) {
        // 处理逻辑
    }
});

await crawler.run();

存储清理

默认情况下，Crawlee会在爬虫开始前清理之前的存储数据。如果需要手动清理，可以使用purgeDefaultStorages()函数：

import { purgeDefaultStorages } from 'crawlee';

// 清理默认存储
await purgeDefaultStorages();

// 确保只清理一次
await purgeDefaultStorages({ onlyPurgeOnce: true });