20、大规模数据采集:用于现实世界AI的网络爬虫架构

大规模数据采集:用于现实世界AI的网络爬虫架构

1. 网络爬虫架构概述

典型的网络爬虫架构由多个组件构成,每个组件都有其独特的职责,这些职责有助于我们设计软件架构。以下是各组件的详细介绍:
- 前沿(Frontier) :维护一个待爬取的URL数据库,初始时会填充会议网站的URL,之后会添加网站上各个页面的URL。
- 获取器(Fetcher) :接收一个URL,并获取对应的文档。
- 解析器(Parser) :对获取到的文档进行解析,并从中提取所需信息。目前暂不关注特定的演讲者细节或与会议相关的特定内容。
- 策略工作器或生成器(Strategy Worker/Generator) :是网络爬虫中至关重要的组件之一,它决定了爬取的范围。策略工作器生成的URL会反馈回前沿。它负责决定以下内容:
- 应跟随哪些链接
- 待爬取链接的优先级
- 爬取深度
- 必要时重新访问/重新爬取页面的时间
- 项目存储(Item Store) :用于存储提取的文档或数据。
- 调度器(Scheduler) :接收一组URL(初始为种子URL),并调度获取器下载资源。调度器负责确保爬虫对网站服务器表现得礼貌,避免重复获取URL,并对URL进行规范化处理。

下面是网络爬虫组件的mermaid流程图:

graph L
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值