20、大规模数据采集：用于现实世界AI的无服务器网络爬虫架构-优快云博客

本文链接：https://blog.youkuaiyun.com/ooo22/article/details/151127673

大规模数据采集：用于现实世界AI的无服务器网络爬虫架构

1. 网络爬虫架构概述

典型的网络爬虫架构包含多个组件，各组件有明确职责，这些职责可指导软件架构设计。以下是各组件介绍：
- 前沿队列（Frontier） ：维护待爬取的URL数据库，初始填充会议网站URL，后续添加网站内各页面的URL。
- 抓取器（Fetcher） ：接收URL并获取相应文档。
- 解析器（Parser） ：对抓取的文档进行解析，提取所需信息。
- 策略工作器（Strategy Worker） ：决定爬取范围，包括应跟随哪些链接、链接的爬取优先级、爬取深度以及是否需要重新访问页面等。生成的URL会反馈到前沿队列。
- 数据存储（Item Store） ：存储提取的文档或数据。
- 调度器（Scheduler） ：接收一组URL（初始为种子URL），调度抓取器下载资源，确保爬虫对服务器友好，避免重复抓取，对URL进行规范化处理。

以下是各组件关系的示意图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(种子URL):::process --> B(前沿队列):::process
    B --> C(调度器):::process