Nutch 0.6 中新的改进

Nutch 0.6 新版本虽未正式发布,但可从 CVS 和官方站点获取相关信息。相比 0.5 版本,它添加了 MP3 文件解析器、控制插件使用的 plugin.includes 等,还增加了动态页面规范化模块、RTF 文件分析插件等,改进了 NDFS,修复了若干补丁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说,添加了不少新功能,当然代码量也有很大的扩充–压缩包有 35M 之多。

  • 增加了 MP3 文件的解析器(Parser)。从邮件列表中来看,对 PDF 文件解析的开发还在完善的过程中。
  • 添加了 plugin.includes,用来控制插件的使用情况。这是个很实用的改进。
  • 增加了针对动态页面的规范化模块:RegexUrlNormalizer 。以后对动态页面的处理应该能更好。
  • 增加了分析 RTF 文件的插件。0.5 版本中已经添加了微软 Word 文件的解析插件。
  • 添加了 clustering-carrot2 插件,以及集群 API 的介绍。
  • NDFS(Nutch Distributed File System)的改进。管理方面也作了改进。关于NDFS的信息可以看这里 。NDFS 给 Nutch 的分布式部署带来了可能性。
  • 修复了若干补丁。

其他参考

Google+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值