nutch ParserJob Plugin加载流程源码解析

本文详细介绍了如何在MapReduce作业中加载和使用自定义解析插件的过程。从解析工厂(parserFactory)初始化开始,深入探讨了如何避免mimeType重复定义的问题,并最终通过调用getParse方法来运行这些插件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

parserJob入口

 

 

 

 

初始化parserFactory的时候会去读取parse-plugins.xml配置的插件信息

 

 

 

重点就是下面这段了。如果mimeType重复定义 在parse-plugin.xml,会被覆盖导致只有一个

所以相同mimeType,放到一起

 

。配置加载完成。

然后看怎么调用插件,回到job主方法,定义好map reduce的相关配置 就等待运行完成。

那么就看看map reduce到底怎么处理插件的

parserJob入口

 

 

 

 

初始化parserFactory的时候会去读取parse-plugins.xml配置的插件信息

 

 

 

重点就是下面这段了。如果mimeType重复定义 在parse-plugin.xml,会被覆盖导致只有一个

所以相同mimeType,放到一起

 

。配置加载完成。

然后看怎么调用插件,回到job主方法,定义好map reduce的相关配置 就等待运行完成。

那么就看看map reduce到底怎么处理插件的

一些校验处理

 

 

下面就是核心代码咯。拿到xml刚刚加载的parser定义,并实例化他们。

再调用parser接口定义的唯一方法。getparse 即可运行自定义插件

在看看是怎么拿到parser的

 

 

 

 

一些校验处理

 

 

下面就是核心代码咯。拿到xml刚刚加载的parser定义,并实例化他们。

再调用parser接口定义的唯一方法。getparse 即可运行自定义插件

在看看是怎么拿到parser的

 

 

 

 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值