这两天开始研究lucene,
可怜连java都没用过的我简直是举步维艰啊,
于是还附带的小学习了一下myeclipse等玩意的配置。。今天收获颇丰,晒一下与lucene第一次亲密接触的成果。
上apache的官网下了一个lucene最新版,(发现居然有人人网的一个分流,不错~下载速度很快!)
然后看了半天多lucene的基础教程,大概理清楚了他的框架和工作流程。
lucene我们应该理解为一个搜索引擎的类库,它不是一个完整的产品/软件,而是一个开发包,可以基于它快速开发满足自己需求的搜索引擎。
其扩展度很大,完全可以根据自己的需求定制,且底层实现效率很高。是apache基金会现在维护的。
其功能上总体就分为两块,倒排序索引的建立 与 搜索业务处理,
倒排序及相关度概念还是用的TF/IDF,以及经典的“相关度向量余弦”概念。基本原理都很好理解。
接着我开始在本地部署测试例程,
然后照着各种网上例程自己写了一个。然后集成了一个口碑不错的IKAnalyzer的中文分词器,感觉效果不错!
入库的 中华人民共和国,我搜 “中华共和国”也能搜出来(自动分为 中华|共和国|……)
建立倒排序索引:
搜索业务:

本文介绍了Lucene的基本原理及其在Java环境下的应用实践。作者从下载安装到配置MyEclipse环境,再到实现全文检索功能进行了详细说明,并分享了一款优秀的中文分词器IKAnalyzer,通过具体示例展示了如何建立倒排序索引并进行搜索业务处理。
1355

被折叠的 条评论
为什么被折叠?



