倒排索引在亿级向量数据近似最近邻搜索下的优势（IVF-HNSW）

最新推荐文章于 2025-11-12 09:42:16 发布

原创

最新推荐文章于 2025-11-12 09:42:16 发布 · 3.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#ANNS #向量检索 #近邻图 #倒排索引 #亿级向量

该论文针对亿级数据的近邻搜索问题，提出了一种改进的倒排索引方法。通过对原始倒排索引进行grouping和pruning策略优化，实现了在大规模数据上提高压缩精度和查询召回率。grouping策略通过细分区域并应用PQ压缩，而pruning则通过与区域中心的距离进行剪枝，减少无效搜索。实验表明，这种方法在billion-scale数据上优于传统的倒排多索引，具有更大的优化潜力。

个人主页

简介

论文题目：Revisiting the inverted indices for billion-scale approximate nearest neighbors，2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势（vs. IMI）并借助proximity graph （HNSW）缓解其不足，在billion-scale数据上实现更优ANNS。

主要内容

提出grouping和pruning策略优化inverted index，提升压缩精度和查询召回率。grouping策略将聚类得到的区域进行细分，得到更小的区域并利用PQ压缩；在grouping基础上，pruning可实现更细粒度的定位。通过HNSW定位最近的几个区域（聚簇）

动机

倒排多索引（inverted multi-index, IMI）是一种有效的亿级数据检索方案。但IMI存在问题：IMI划分的很多区域没有数据点，导致有效区域数量较少，可能引起搜索花费大量时间在空区域。本文认为这主要由于IMI为不同的子空间独立学习码本，然而实际上不同子向量（子空间）并不是统计独立的，不同子空间之间可能是非常相关的（比如，CNN产生的descriptors）。

当前对IMI（或PQ）的优化研究大都提升了召回率，但他们的运行时间普遍为10ms左右，在实际场景中还是比较慢。

IMI vs. inverted index

IMI的优点：（1）精确的候选列表；（2）索引和查询效率高。（在码本尺寸K较小时）

缺点：但在K超过 $2^{14}$