最近邻搜索之乘积量化（Product Quantizer）理解（一）

最新推荐文章于 2025-01-31 21:26:41 发布

悟道修炼中

最新推荐文章于 2025-01-31 21:26:41 发布

阅读量1.5w

点赞数 10

分类专栏：索引技术近似最近邻检索技术文章标签：搜索索引最近邻算法

本文链接：https://blog.youkuaiyun.com/CHIERYU/article/details/50321473

版权

索引技术同时被 2 个专栏收录

16 篇文章

订阅专栏

近似最近邻检索技术

10 篇文章

订阅专栏

简介

Product Quantizer是由Herv´e J´egou等人2011年在IEEEE上发表的论文《Product Quantization for Nearest Neighbor Search》中提出来的。它的提出是为了在内存和效率之间求得一个平衡，既保证图像索引结构需要的内存足够，又使得检索质量和速度比较好。对于任何基于固定维数特征的事物，它可以应用到其索引结构的建立及检索上。它属于ANN(approximate nearest neighbor)算法。与它相关的算法有E2LSH（Euclidean Locality-Sensitive Hashing）， KD-trees，K-means。

主要思想

Product Quantizer翻译过来是乘积量化，从字面理解大概包括了两个过程特征的分组量化过程和类别的笛卡尔积过程。假设有一个数据集，那么K-means的做法就是给定类别数目K，目标函数是所有样本到类中心的距离和最小，迭代计算优化目标函数，得到K个类中心和每个样本所属的类别。目标函数不变，乘积量化的做法是：
（1）数据集为K个类别，每个样本以一个vector的形式表示，维数为d，将vector的各个分量分成m组。
（2）将所有vector的某组分量作为数据集，采用k-means算法得到这里写图片描述个类中心，运行m次k-means算法，则每组都有个类中心，记这个类中心为一个集合。
（3）将上述得到的m个集合做笛卡尔积，就得到整个数据集的类中心了。