简介
论文题目:Revisiting the inverted indices for billion-scale approximate nearest neighbors,2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势(vs. IMI)并借助proximity graph (HNSW)缓解其不足,在billion-scale数据上实现更优ANNS。
主要内容
提出grouping和pruning策略优化inverted index,提升压缩精度和查询召回率。grouping策略将聚类得到的区域进行细分,得到更小的区域并利用PQ压缩;在grouping基础上,pruning可实现更细粒度的定位。通过HNSW定位最近的几个区域(聚簇)
动机
倒排多索引(inverted multi-index, IMI)是一种有效的亿级数据检索方案。但IMI存在问题:IMI划分的很多区域没有数据点,导致有效区域数量较少,可能引起搜索花费大量时间在空区域。本文认为这主要由于IMI为不同的子空间独立学习码本,然而实际上不同子向量(子空间)并不是统计独立的,不同子空间之间可能是非常相关的(比如,CNN产生的descriptors)。
当前对IMI(或PQ)的优化研究大都提升了召回率,但他们的运行时间普遍为10ms左右,在实际场景中还是比较慢。
IMI vs. inverted index
IMI的优点:(1)精确的候选列表;(2)索引和查询效率高。(在码本尺寸K较小时)
缺点:但在K超过 2 14 2^{14}

该论文针对亿级数据的近邻搜索问题,提出了一种改进的倒排索引方法。通过对原始倒排索引进行grouping和pruning策略优化,实现了在大规模数据上提高压缩精度和查询召回率。grouping策略通过细分区域并应用PQ压缩,而pruning则通过与区域中心的距离进行剪枝,减少无效搜索。实验表明,这种方法在billion-scale数据上优于传统的倒排多索引,具有更大的优化潜力。
最低0.47元/天 解锁文章
1292

被折叠的 条评论
为什么被折叠?



