Luecne基本原理:在Maven项目中简单环境搭建测试
Lucene 是一个高效的基于java的全文索引库。全文检索的索引的创建过程一般有以下几步:如何创建索引:第一步:准备需要索引的原始文档数据集(Document)文件格式有多种。本文以文本用一般的txt、word和excel文档作为示例数据集。第二步:将原文档传给分词组件(Tokenizer)
将文档分成一个个单独的词
去除标点符号
去除停用词(stop word)
第三步:将得到的词元(Token
原创
2017-04-01 16:18:51 ·
1063 阅读 ·
0 评论