使用lucene的几个注意点

最新推荐文章于 2025-08-03 21:26:18 发布

sleepbird

最新推荐文章于 2025-08-03 21:26:18 发布

阅读量738

点赞数

文章标签： lucene 全文检索磁盘引擎 html java

本文介绍了Lucene索引机制的核心概念，包括如何处理不同格式的文档如PDF、DOC及HTML等，解析这些文档为纯文本的方法，以及使用开源工具如pdfbox、poi等进行辅助。文中还详细讨论了索引的创建过程，例如通过IndexWriter进行重写或增量索引的选择，并解释了索引次序、索引写入磁盘的最佳实践以及如何更新索引等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.lucene中的document对txt文件是直接支持的，对于pdf，doc，html等则需经过解析成txt的形式，网上开源的解析工具包有pdfbox,poi,nekohtml。
2.indexwriter中第三个boolean参数标明是重写索引还是增量索引，若是增量索引须注意在上一次所以结束时writer已经close了，否则函数是无效的。
3.lucene的索引次序是字典序的，也就是说我们只要记录最后一个索引的文件，下次索引能方便定位直接从这个文件开始。
4.索引何时写入磁盘文件是一个问题，这时你必须根据程序的要求来抉择，如果说你考虑到索引随时有可能会停止，你可以在索引完一个文件后马上把它写入磁盘，但这样做对性能的损害是很大的，众所周知，读内存的速度远远快于读硬盘的速度，如果对此要求不高，你可以规定索引完多少后一起写入磁盘。
5.要更新索引，先得删除原来的索引项，然后再新添进去，lucene不支持直接的更新

具体的一些东西我不想讲了，看一下lucene的API和《在应用中加入全文检索功能 ——基于Java的全文索引引擎Lucene简介》的介绍文章你会对lucene有一个大致印象的，当然在做项目的过程中我也发现天下中文文章一大抄的情况，相比较而言，英文的技术文章原创的多，现在中国的开发人员是连翻译都没兴趣了，好不容易的一篇原创被东载西载，我们还是缺乏积极的精神，这样下去中国的开源社区怎么会繁荣呢？
也许真的是D版惹的祸，得来太容易，使人丧失了危机感，开源在中国也就成了海市蜃楼，不知道一直用微软的东西是否是一种