使用 Milvus 进行向量数据库管理与实践

最新推荐文章于 2025-11-03 17:16:55 发布

原创最新推荐文章于 2025-11-03 17:16:55 发布 · 706 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#milvus #数据库 #python

部署运行你感兴趣的模型镜像

技术背景介绍

在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus 是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。

核心原理解析

Milvus 的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括 IVF、HNSW 等，使其能够高效地进行大规模向量的相似性搜索操作。此外，Milvus 提供分布式集群支持，允许用户在大规模数据场景下进行水平扩展。

代码实现演示

下面我们将演示如何在 Python 中使用 Milvus SDK 配合 langchain_community 包，将 Milvus 用作向量存储。

安装 Milvus SDK

首先，确保安装 pymilvus：

pip install pymilvus

向量存储示例

接下来，我们来看看如何使用 Milvus 的索引器作为向量存储。以下是代码示例：

from pymilvus import connections, Collection, CollectionSchema, FieldSchema, DataType
from langchain_community.vectorstores import Milvus

# 连接到 Milvus 实例
connections.connect(
    alias="default",
    host='localhost',
    port='19530'
)

# 定义数据集架构
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True),
    FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=128)
]
schema = CollectionSchema(fields=fields, description="Example collection")

# 创建集合
collection = Collection(name="example_collection", schema=schema)

# 使用 Milvus 作为向量存储，进行向量数据的插入和搜索
vectorstore = Milvus(collection_name="example_collection")

# 插入向量数据
data = [
    [100, [0.1] * 128],  # 假设每个向量的维度是128
    [101, [0.2] * 128]
]
collection.insert(data)

# 搜索相似向量
search_param = {"metric_type": "L2", "params": {"nprobe": 10}}
results = vectorstore.similarity_search(query_vector=[0.15] * 128, search_params=search_param, k=2)

# 打印搜索结果
print("搜索结果:", results)