Apify/Crawlee爬虫扩展指南：如何优雅地控制并发与请求速率-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00658/article/details/148375098

Apify/Crawlee爬虫扩展指南：如何优雅地控制并发与请求速率

crawlee Crawlee—A web scraping and browser automation library for Node.js that helps you build reliable crawlers. Fast. 项目地址: https://gitcode.com/gh_mirrors/cr/crawlee

前言

在构建网络爬虫时，合理控制并发请求和请求速率至关重要。Apify/Crawlee提供了丰富的配置选项，帮助开发者精细调节爬虫行为，既确保高效抓取，又避免对目标网站造成过大压力。本文将深入解析这些扩展配置，助你构建更健壮的爬虫系统。

基础配置选项

每分钟最大请求数（maxRequestsPerMinute）

这个参数控制爬虫每分钟能发送的最大请求数量。默认值为无限（Infinity），意味着爬虫会按照最大并发数持续发送请求。

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    maxRequestsPerMinute: 60, // 限制每分钟最多60个请求
    async requestHandler({ request, $ }) {
        // 处理逻辑
    },
});

适用场景：当需要限制爬虫对目标网站的总访问频率时，此参数非常有用。它能防止突发大量请求后长时间等待的情况，使请求分布更均匀。

并发控制（minConcurrency与maxConcurrency）

这两个参数控制同时进行的请求数量范围：

minConcurrency：最小并发数（默认1）
maxConcurrency：最大并发数（默认200）

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    minConcurrency: 5,
    maxConcurrency: 50, // 限制并发在5-50之间
    async requestHandler({ request, $ }) {
        // 处理逻辑
    },
});

注意事项：

不要将minConcurrency设置过高，否则可能导致系统资源不足
建议保持默认值，让爬虫根据可用资源自动扩展
200的默认最大并发适合大多数场景，特殊需求可适当调整

高级自动扩展配置

对于需要精细控制的场景，Crawlee提供了autoscaledPoolOptions对象，包含以下高级参数：

初始并发数（desiredConcurrency）

指定爬虫启动时的初始并发请求数，默认为minConcurrency值。

并发比例阈值（desiredConcurrencyRatio）

定义允许进一步扩展前需要达到的并发比例（0-1之间），默认0.95。可以理解为系统尝试扩展的触发点。

扩展步长（scaleUpStepRatio与scaleDownStepRatio）

控制每次扩展或收缩时并发数的调整幅度，默认均为0.05（即5%）。

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    autoscaledPoolOptions: {
        scaleUpStepRatio: 0.1, // 每次扩展增加10%
        scaleDownStepRatio: 0.02, // 每次收缩减少2%
    },
    async requestHandler({ request, $ }) {
        // 处理逻辑
    },
});

运行检查间隔（maybeRunIntervalSecs）

控制自动扩展池检查是否可启动新请求的频率（秒），默认0.5秒。影响扩展后新请求的启动速度。

日志记录间隔（loggingIntervalSecs）

控制状态日志记录频率（秒），默认60秒。设为null可禁用日志。

自动扩展间隔（autoscaleIntervalSecs）

控制扩展检查频率（秒），默认10秒。建议保持在5-20秒之间。

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    autoscaledPoolOptions: {
        autoscaleIntervalSecs: 15, // 每15秒检查一次扩展
        loggingIntervalSecs: 120, // 每2分钟记录一次状态
    },
    async requestHandler({ request, $ }) {
        // 处理逻辑
    },
});

最佳实践建议

渐进式扩展：保持默认的scaleUpStepRatio（5%），避免突然增加大量并发
合理设置上限：根据目标网站承受能力和自身系统资源设置maxConcurrency
监控调整：初期可设置较短的loggingIntervalSecs观察系统行为
速率限制优先：对敏感网站，优先使用maxRequestsPerMinute而非单纯限制并发
测试验证：生产环境前，在不同配置下进行充分测试

总结

Apify/Crawlee提供了从基础到高级的多层次扩展控制，开发者可以根据实际需求灵活组合这些参数。对于大多数场景，使用基础的maxRequestsPerMinute和min/maxConcurrency即可满足需求；特殊场景下，通过autoscaledPoolOptions的精细调节可以实现更优化的爬取策略。记住，合理的扩展配置不仅能提升效率，也是网络爬虫良好公民的体现。

crawlee Crawlee—A web scraping and browser automation library for Node.js that helps you build reliable crawlers. Fast. 项目地址: https://gitcode.com/gh_mirrors/cr/crawlee

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考