第7篇：深入浅出Milvus五种检索算法的核心源码

最新推荐文章于 2025-05-09 09:46:07 发布

原创

最新推荐文章于 2025-05-09 09:46:07 发布 · 2.5k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#milvus #算法 #AIGC #机器学习 #word2vec

接上一篇，本文我们来简单剖析一下Milvus的五种主要检索算法（FLAT、IVF、HNSW、ANNOY、DISKANN）的源码实现。为了便于理解，我们将依次探讨每种算法的实现原理和架构，并提供核心代码片段和详细解释。

Milvus主要使用Faiss、HNSWlib和其他库来实现这些检索算法。因此，我们将参考这些库的源码来理解Milvus中的实现。

1. FLAT（Brute-force）

原理和架构

FLAT（Brute-force）是最简单的检索算法。其原理是遍历所有向量，计算查询向量与每个向量的距离，找到最近的向量。

核心实现

在Faiss库中，FLAT索引用一个数组存储所有向量，并通过线性扫描进行检索。

// Faiss中的Flat索引实现
#include <faiss/IndexFlat.h>

// 创建FLAT索引
faiss::IndexFlatL2 index(d); // d是向量的维度

// 添加向量到索引中
index.add(n, xb); // n是向量的数量，xb是向量数据

// 查询向量
index.search(1, xq, k, D, I); // xq是查询向量，k是返回的最近邻数量，D存储距离，I存储索引

Milvus中的实现

在Milvus中，FLAT索引通过调用Faiss库来实现。

#include <faiss/IndexFlat.h>

// Milvus中的FLAT索引实现
void MilvusFlatIndex::Add(const float* data, size_t num_vectors) {
   
   
    faiss::IndexFlatL2 index(dimension_);
    index.add(num_vectors, data);
}

void MilvusFlatIndex::Search(const float* query, size_t topk, float* distances, int64_t* labels) {
   
   
    index.search(1, query, topk, distances, labels);
}

2. IVF（Inverted File）

原理和架构

IVF（Inverted File）通过K-means聚类将数据划分为若干个簇，创建倒排列表。查询时，首先找到最近的簇，然后在该簇中进行搜索。

核心实现

在Faiss库中，IVF索引用聚类和倒排文件来加速检索。

#include <faiss/IndexIVFFlat.h>

// 创建IVF索引
faiss::IndexFlatL2 quantizer(d);
faiss::IndexIVFFlat index(&quantizer, d, nlist); // nlist是簇的数量

// 训练索引
index.train(n, xb); // xb是训练数据

// 添加向量到索引中
index.add(n, xb);

// 查询向量
index.search(1, xq, k, D, I);