Nutch
文章平均质量分 65
有腹肌的码农
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
修改LanguageDetector 的语料库载入参数为 字节流
google推出的语言检测工具(http://code.google.com/p/language-detection/)十分好用,分辨率非常高,近期,需要将这个工具用到nutch1.7.因为nutch1.7的默认检测时tika,准确性十分差。 在使用该工具时,发现两个缺点(针对我的项目是缺点):1.语料库profile文件需要单独导入。2.导入函数只能接受File,这样在分布式环境下无法使原创 2013-08-27 11:02:35 · 937 阅读 · 0 评论 -
Nutch插件加载流程
首先介绍一下Nutch插件使用到的几个类:1.PluginRepository:存储了PluginDescriptor,Extension,ExtensionPoint2.PluginDescriptor:描述插件的元数据,从plugin.xml处获得3.Plugin:插件的一个抽象4.ExtensionPoint:扩展点,nutch有15个扩展点,所有插件都集中在nutch-ex原创 2013-09-01 14:13:44 · 585 阅读 · 1 评论
分享