Heritrix源码之 处理链

Heritrix的处理器链机制负责网页抓取处理流程。每个URL对应一个处理器链集合,通过用户配置实现高度灵活和通用的功能。解析核心在于初始化时读取配置并建立链式处理器。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

heritrix源码真不是一般的复杂,但是一点一点解析的话还是能看懂的
处理链是heritrix里面最重要的地方之一,对页面的操作都通过处理链完成,其配置的灵活程度和通用性十分强大。别的程序也可以借鉴哦~~~

ProcessorChainList
处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每个处理器都做他们的处理,完成整个抓取。处理器链集里面的处理链是用户配置的,也就是说这个处理器链集里面填充的都是在UI里面配置的项。

在初始化的时候读取所有的配置项调用
	public void addProcessorMap(String name, List processorMap) {
ProcessorChain processorChain = new ProcessorChain(processorMap);
ProcessorChain previousChain = getLastChain();
if (previousChain != null) {
previousChain.setNextChain(processorChain);
}
chainList.add(processorChain);
chainMap.put(name, processorChain);
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值