Headless Chrome 爬虫工具 HCCrawler API 详解

羿漪沁Halbert

于 2025-06-07 09:23:35 发布

阅读量299

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00724/article/details/148490978

Headless Chrome 爬虫工具 HCCrawler API 详解

headless-chrome-crawler Distributed crawler powered by Headless Chrome 项目地址: https://gitcode.com/gh_mirrors/he/headless-chrome-crawler

概述

Headless Chrome Crawler (HCCrawler) 是一个基于 Puppeteer 的无头浏览器爬虫框架，提供了强大的网页抓取和数据处理能力。本文将深入解析 HCCrawler 的核心 API，帮助开发者快速掌握这一工具的使用方法。

核心类与方法

HCCrawler 类

HCCrawler 是框架的核心类，提供了启动和连接 Chromium 实例的方法。

基本使用示例

const HCCrawler = require('headless-chrome-crawler');

(async () => {
  const crawler = await HCCrawler.launch({
    evaluatePage: (() => ({
      title: $('title').text(),
    })),
    onSuccess: (result) => {
      console.log(result);
    },
  });
  crawler.queue('https://example.com/');
  await crawler.onIdle();
  await crawler.close();
})();

主要方法

HCCrawler.connect([options])
- 连接已存在的 Chromium 实例
- 重要参数：
  - maxConcurrency: 并发页面数（默认10）
  - maxRequest: 最大请求数（0表示无限制）
  - exporter: 结果导出器
  - cache: 缓存实现
HCCrawler.launch([options])
- 启动新的 Chromium 实例
- 参数与 connect 方法类似，但增加了 Puppeteer 启动选项
crawler.queue([options])
- 添加请求到队列
- 支持多种参数配置：
  - url: 目标URL（必须）
  - maxDepth: 链接跟随深度
  - priority: 请求优先级
  - delay: 请求间隔时间

爬虫控制方法

crawler.pause() 暂停队列处理
crawler.resume() 恢复队列处理
crawler.clearCache() 清除缓存
crawler.close() 关闭浏览器实例
crawler.onIdle() 等待队列空闲

状态查询方法

crawler.isPaused() 检查是否暂停
crawler.queueSize() 获取队列大小
crawler.requestedCount() 获取已请求计数

高级功能

请求生命周期事件

HCCrawler 提供了完整的请求生命周期事件：

crawler.on('requeststarted', (options) => {
  console.log('请求开始:', options.url);
});

crawler.on('requestfinished', (options) => {
  console.log('请求完成:', options.url);
});

crawler.on('requestfailed', (error) => {
  console.error('请求失败:', error.options.url);
});

自定义爬取逻辑

通过 customCrawl 选项可以直接使用 Puppeteer 原生 API：

const crawler = await HCCrawler.launch({
  customCrawl: async (page, crawl) => {
    await page.setViewport({ width: 1920, height: 1080 });
    return crawl();
  }
});