使用 Milvus 进行向量存储与检索

最新推荐文章于 2025-07-12 15:28:52 发布

原创最新推荐文章于 2025-07-12 15:28:52 发布 · 558 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#milvus #python

使用 Milvus 进行向量存储与检索

在处理大规模的嵌入向量时，高效的存储和检索是关键。Milvus 是一款专门用于存储、索引和管理由深度神经网络和其他机器学习模型生成的大量嵌入向量的数据库。本篇文章将带你了解如何使用 Milvus 构建高效的向量检索系统。

技术背景介绍

随着深度学习和机器学习模型的普及，越来越多的数据以嵌入向量的形式存在。这些向量表示对象的特征，用于各种任务如图像搜索、推荐系统和自然语言处理。Milvus 是一款开源的向量数据库，被设计来高效处理这些大规模向量的存储和检索任务。

核心原理解析

Milvus 提供了高效的向量索引和检索功能，支持多种索引方式（如 IVF、HNSW、ANNOY等），能够在高维空间下快速查找相似向量。Milvus 支持水平扩展，确保在处理海量数据时仍然具备高性能和低延迟。

代码实现演示

安装和设置

首先，我们需要安装 Milvus 的 Python SDK 以方便与 Milvus 进行交互：

pip install pymilvus

接下来，我们可以使用 langchain_community 提供的 Milvus 向量存储封装库。这可以简化我们在语义搜索或者示例选择中的操作。

建立连接并进行操作

from pymilvus import Collection, connections
from langchain_community.vectorstores import Milvus

# 连接到 Milvus 服务器
connections.connect("default", host='localhost', port='19530')

# 创建集合
collection_name = 'example_collection'
dim = 128  # 嵌入向量的维度
collection = Collection(collection_name, 
                        schema=CollectionSchema(fields=[
                            FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=dim)
                        ]))

# 插入数据
import numpy as np
vectors = np.random.rand(1000, dim).astype(np.float32).tolist()
collection.insert([[i for i in range(1000)], vectors])

# 创建索引
index_params = {"index_type": "IVF_FLAT", "params": {"nlist": 128}}
collection.create_index(field_name="vector", index_params=index_params)

# 搜索向量
query_vector = vectors[0]
search_params = {"metric_type": "L2", "params": {"nprobe": 10}}
results = collection.search([query_vector], "vector", search_params, limit=10)
print(results)  # 打印搜索结果