倒排索引在亿级向量数据近似最近邻搜索下的优势(IVF-HNSW)

该论文针对亿级数据的近邻搜索问题,提出了一种改进的倒排索引方法。通过对原始倒排索引进行grouping和pruning策略优化,实现了在大规模数据上提高压缩精度和查询召回率。grouping策略通过细分区域并应用PQ压缩,而pruning则通过与区域中心的距离进行剪枝,减少无效搜索。实验表明,这种方法在billion-scale数据上优于传统的倒排多索引,具有更大的优化潜力。

个人主页

简介

论文题目:Revisiting the inverted indices for billion-scale approximate nearest neighbors,2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势(vs. IMI)并借助proximity graph (HNSW)缓解其不足,在billion-scale数据上实现更优ANNS。

主要内容

提出grouping和pruning策略优化inverted index,提升压缩精度和查询召回率。grouping策略将聚类得到的区域进行细分,得到更小的区域并利用PQ压缩;在grouping基础上,pruning可实现更细粒度的定位。通过HNSW定位最近的几个区域(聚簇)

动机

倒排多索引(inverted multi-index, IMI)是一种有效的亿级数据检索方案。但IMI存在问题:IMI划分的很多区域没有数据点,导致有效区域数量较少,可能引起搜索花费大量时间在空区域。本文认为这主要由于IMI为不同的子空间独立学习码本,然而实际上不同子向量(子空间)并不是统计独立的,不同子空间之间可能是非常相关的(比如,CNN产生的descriptors)。

当前对IMI(或PQ)的优化研究大都提升了召回率,但他们的运行时间普遍为10ms左右,在实际场景中还是比较慢。

IMI vs. inverted index

IMI的优点:(1)精确的候选列表;(2)索引和查询效率高。(在码本尺寸K较小时)

缺点:但在K超过 2 14 2^{14}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值