FAISS 原理使用方法记录

最新推荐文章于 2025-07-11 00:41:59 发布

原创

最新推荐文章于 2025-07-11 00:41:59 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #人工智能

FAISS通过PCA降维和PQ编码实现高效向量搜索。PCA用于降低数据维度，保留主要特征；PQ则将高维向量分解为低维空间的笛卡尔积，利用量化码本压缩索引，大幅减少存储需求。FAISS提供对称和非对称距离计算方法，支持快速相似搜索。文章介绍了FAISS的使用，并提供了下载链接。

目录

- 原理

Faiss是Facebook的AI团队开源的一套用于做聚类或者相似性搜索的软件库，底层是用C++实现。

Faiss几乎可以在10ms内完成百万*百万以上的向量距离计算，它是怎么实现的呢？

原理

向量计算是一个最经典的时空优化问题，在查询过程中建立更多地索引固然可以提升查询速度，但是却有占据了存储空间，我们希望系统可以即减少索引又能提升查询性能。

为了得到时间和空间的最优，Faiss使用了PCA和PQ两个手段进行向量压缩和编码，当然还有其它的一些优化手段，但是PCA和PQ是最为核心的。

PCA降维

PCA(Principal Component Analysis)，PAC的作用主要是降低数据集的维度，然后挑选出主要的特征。

PCA的主要思想是移动坐标轴，找到方差最大的方向上的特征值，什么叫方差最大的方向的特征值呢。就像下图中的曲线B，一样，它的覆盖范围最广。

在这里插入图片描述
基本步骤：
（1）首先计算数据集的协方差矩阵
（2）计算协方差矩阵的特征值和特征向量
（3）保留最重要的n个特征

PQ编码

Product quantization(乘积量化PQ)，PQ是一种建立索引的方式。这里的乘积是指笛卡尔积（Cartesian product），意思是指把原来的向量空间分解为若干个低维向量空间的笛卡尔积，并对分解得到的低维向量空间分别做量化（quantization）。这样每个向量就能由多个低维空间的量化code组合表示。

假设原始向量是1024维，可以把它拆解成8个子向量，每个子向量128维。

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。