Milvus 向量数据库使用示例

最新推荐文章于 2025-11-03 17:16:55 发布

原创

最新推荐文章于 2025-11-03 17:16:55 发布 · 1.6k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#milvus #数据库

在这里插入图片描述

一、环境准备

# 安装依赖（需提前配置 Docker 版 Milvus）
pip install pymilvus python-dotenv transformers torch tqdm

二、文本分割与向量化

from glob import glob
from tqdm import tqdm
from transformers import AutoTokenizer, AutoModel
import torch

# 使用 BERT 模型生成文本向量
def text_to_vector(text_chunk):
    tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
    model = AutoModel.from_pretrained("bert-base-uncased")
    inputs = tokenizer(text_chunk, return_tensors="pt", truncation=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state[:, 0, :].numpy().squeeze()

# 分割文本文件
def split_text_file(file_path, chunk_size=300):
    with open(file_path, "r") as f:
        full_text = f.read()
    return [ful