用lucene做一个站内搜索引擎(二):一个站内搜索器的设计(1):索引器的设计

最新推荐文章于 2018-10-27 22:41:00 发布

原创最新推荐文章于 2018-10-27 22:41:00 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#lucene #搜索引擎 #优化 #数据库 #工作

本文探讨了在使用Lucene构建站内搜索引擎时的关键技术挑战，包括离线和在线索引的建立及优化过程。文章详细介绍了如何通过合理的设计来平衡索引的更新速度与查询效率，特别关注了索引优化、在线索引与重建索引之间的协调。

在做一个站内的搜索引擎, 仅有数据库的一些字符串匹配的函数是不够的, 往往需要从数据库(离线地)或从用户当前的输入(在线地,或短间隔地)把一条一条的数据记录(以下称为Entry)读出建索引并适时的进行优化(IndexWriter.optimize()). 上面说的也就是要做好三个工作:离线全局索引,在线索引,适时的优化索引.

在说设计之前需要先介绍一下Lucene的索引读写的特征:1) Lucene的索引写入时会对写入的速度做优化,会牺牲index的查找(读)速度, 为提高index的查找,需要进行优化(IndexWriter.optimize) 2) 对同一个index目录, lucene的写操作不能同进行 3) lucene的读写操作可同时进行, 但读的是"上一次写完的index"

结合lucene IndexWriter现有的特征,索引器需要做到:
1) 优化时不重建索引, 重建索引时不优化
2) 重建索引可以与在线索引同时进行, 但是,需要做一次index的拷贝, 在拷贝上重建, 在重建过程中在线索引仍在进行, 但不能添加到当前索引目录, 应添加到一个temp index目录上. 在重建索引读完数据库后, 应当将temp index合并到重建的索引上, 合并的过程不允许在线索引进行写入. 合并完后,在线index变成重建的这个index.
3) 优化index和在线索引的关系与重建索引和在线索引的关系一样.

在线的写入的索引项放入一个池中, 系统的在线索引线程会定时地到池子中取出所有的东东写入索引.

系统的简单静态示意图如下: