plugin.xml配置了插件实现的接口 导入的第三方包 插件所在的位置等等
索引的结构
index由多个segment(段)组成
segment由多个document(文档)组成
document由多个field(域)组成
field由多个term(项)组成
Text Netel_Email=(Text) datum.getMetaData().get(new Text(JobEngineUtil.NETEL_EMAIL));
从CrawlDatum中的key拿值
doc.add(JobEngineUtil.NETEL_EMAIL,Netel_EmailStr);
放到NutchDocument对象中
LuceneWriter.addFieldOptions(JobEngineUtil.NETEL_EMAIL, LuceneWriter.STORE.YES,LuceneWriter.INDEX.TOKENIZED, conf);
这个应该是设置字段属性的
LuceneWriter.STORE.YES 完全存放 还有NO 不存 COMPRESS 压缩存
INDEX.TOKENIZED 分词并建索引 还有 UN_TOKENIZED 不分词但建索引 NO 不索引 NO_NORMS索引不分析
本文介绍了Nutch使用Lucene进行文档索引的过程,包括索引的分层结构:segment、document、field及term。同时,详细解释了如何通过CrawlDatum获取元数据,并将这些数据添加到NutchDocument中,最后设置了不同字段的存储和索引选项。
675

被折叠的 条评论
为什么被折叠?



