Inverted Multi-Index

最新推荐文章于 2025-02-17 07:00:00 发布

原创最新推荐文章于 2025-02-17 07:00:00 发布 · 3.9k 阅读

3 ·

CC 4.0 BY-SA版权

论文总结专栏收录该内容

20 篇文章

订阅专栏

倒排多索引（Inverted Multi-Index）是一种改进的索引结构，源于Artem Babenko和Victor Lempitsky的论文。它通过在不同维度上进行K-means聚类，提高检索召回率，解决了传统倒排索引在数据稀疏时的局限。该方法将数据分为两部分，分别进行聚类，然后使用多序列算法进行查询，以找到最接近的邻居。实验表明，Inverted Multi-Index在召回率上优于传统方法，但计算速度稍慢。

Inverted Multi-Index

简介

Inverted Multi-index是Artem Babenko 和 Victor Lempitsky发表的一篇论文，论文起初发表在CVPR2012上，后来又增加了内容，又发表在2014的PAMI上，被引用的次数很高。
论文地址如下所示：
CVPR2012
PAMI 2014

引言

分析整篇文章，总结下来想法还是很直观。首先分析传统的倒排索引，在传统的倒排索引中，我们这样做：

首先N个M维的数据，首先进行K-means聚类，会生成K个聚类
将原始的每个M维的数据分别和Ｋ个聚类中心进行比较，然后找出距离最小的聚类。
会生成如下所示的索引结构，方框代表聚类中心，圆代表聚类中同一类的数据。

但是原始的倒排索引是在全维度上进行聚类，qurey时候先计算与聚类中心centroids的距离，然后计算centroids内的database与query的距离，避免了O(n)的搜索规模。然而，如果数据比较分散，没有出现明显的数据簇，直接进行聚类，数据将会非常稀疏。导致在查询的过程中，会只关注centroids内的点，然而忽视了实际很近的数据点。如下图所示：

所以，在论文中作者提出了一种新型的索引结构，将原始的数据进行维度划分，然后在各个维度中进行K-means聚类，将database中的数据映射到各个空间的centroids上，query时通过计算数据与database的centroids距离进行排序，返回K个紧邻。进行这种划分，一个最大的优势就是，采用了更精细的子空间划分，提高了检索的召回率。

Iverted Multi-Index

受到product quantization的思想启发，作者将原始的数据Ｎ×Ｍ维数据 $D = \{ p_1, p_2,p_3,.......p_n \}$ ，分别划分为两个Ｎ×Ｍ／２维的数据。假设 $p_i=[p_i^1 ,p_j^1]$ ，其中 $p_i \in R^M$ 。我们现在讲数据集进行划分为两部分， $p_i^1 \in R^\frac{M}{2}$ ， $p_j^1 \in R^\frac{M}{2}$ 。所有的数据进行划分以后，原始的N M维的数据集变为 $D_1 = \{ p_1^1, p_2^1,p_3^1,.......p_n ^1\}$ 和 $D_2 = \{ p_1^2, p_2^2,p_3^2,.......p_n ^2\}$ 。分别对 $D_1$ 和 $D_2$ 进行K-means生成k个centroids的聚类，分别记为 $U = \{u_1, u_2, u_3,.....u_k\}$ 和 $V = \{v_1, v_2, v_3,.....v_k\}$ 。聚类中心形成以后，我们将前半部分和后半部分的聚类中心进行拼接以后才能完全代表database中的数据，所以总共存在 $k^2$ 个列表。将原始的数据集 $p_i$ 的前半部分 $p_i^1$ 和 $D_1$ 的聚类中心进行比较，得到距离最近的聚类，后半部分同理。把 $K^2$ 的每一个(如图1的方框)lists写成 $W_ij$ 。所以每一个points $[p_i^1, p_i^2]$ 会分到最近的点 $[u_i, v_j]$ 。

上述的 $d(a,b)=d_1(a^1,b^1)+d_2(a^2,b^2)$ 距离采用欧式距离。
索引表建立以后，来了查询q以后，我们要得到距离q最近的k个邻居，由于 $k^2$ 个列表中有可能存在某个 $W_ij$ 后面没有数据，我们首先要找到 $T(T>k)$ 个最近的聚类中心。我们首先分别从 $U$ 中和 $V$ 中找到T个最近的聚类中心，然后按照距离进行排序。然后，作者提出了multi-sequence 算法，具体步骤如下所示：
算法步骤

加入误差
经过试验发现Multi-D-ADC比Multi-ADC有更高的召回率，Multi-ADC比Multi-D-ADC的计算速度更快。

总结

和Inverted index相比，由于 $D$ 的数量不变，所有两者的索引结构所占用的内存相同，但是由于Inverted Multi-Index的列表长度为 $K^2$ ，而倒排索引为K。并且Inverted Multi-Index列表存在数据为空的情况，并且较长，限制了正交分割的数目，作者实验发现分为两部分正好。