使用lucene的几个注意点

本文介绍了Lucene索引机制的核心概念,包括如何处理不同格式的文档如PDF、DOC及HTML等,解析这些文档为纯文本的方法,以及使用开源工具如pdfbox、poi等进行辅助。文中还详细讨论了索引的创建过程,例如通过IndexWriter进行重写或增量索引的选择,并解释了索引次序、索引写入磁盘的最佳实践以及如何更新索引等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.lucene中的document对txt文件是直接支持的,对于pdf,doc,html等则需经过解析成txt的形式,网上开源的解析工具包有pdfbox,poi,nekohtml。
2.indexwriter中第三个boolean参数标明是重写索引还是增量索引,若是增量索引须注意在上一次所以结束时writer已经close了,否则函数是无效的。
3.lucene的索引次序是字典序的,也就是说我们只要记录最后一个索引的文件,下次索引能方便定位直接从这个文件开始。
4.索引何时写入磁盘文件是一个问题,这时你必须根据程序的要求来抉择,如果说你考虑到索引随时有可能会停止,你可以在索引完一个文件后马上把它写入磁盘,但这样做对性能的损害是很大的,众所周知,读内存的速度远远快于读硬盘的速度,如果对此要求不高,你可以规定索引完多少后一起写入磁盘。
5.要更新索引,先得删除原来的索引项,然后再新添进去,lucene不支持直接的更新

具体的一些东西我不想讲了,看一下lucene的API和《在应用中加入全文检索功能 ——基于Java的全文索引引擎Lucene简介》的介绍文章你会对lucene有一个大致印象的,当然在做项目的过程中我也发现天下中文文章一大抄的情况,相比较而言,英文的技术文章原创的多,现在中国的开发人员是连翻译都没兴趣了,好不容易的一篇原创被东载西载,我们还是缺乏积极的精神,这样下去中国的开源社区怎么会繁荣呢?
也许真的是D版惹的祸,得来太容易,使人丧失了危机感,开源在中国也就成了海市蜃楼,不知道一直用微软的东西是否是一种 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值