结合 BERT 模型 和 Milvus 向量数据库,通过一个 Python 示例 分步骤讲解如何实现「文本相似度搜索」。
整个过程分为:文本向量化 → 存储到 Milvus → 相似度搜索。
1️⃣ 环境准备
安装必要的库:
pip install pymilvus transformers torch
2️⃣ 流程图解
BERT 模型
↓ 将文本转为向量
Milvus 数据库(存储所有向量)
↓ 输入问题文本
Milvus 搜索相似向量 → 返回最相似的答案
3️⃣ 完整代码示例(分步骤解析)
步骤1:使用 BERT 将文本转换为向量
from transformers import AutoTokenizer, AutoModel
import torch
# 加载 BERT 模型和分词器
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
def text_to_vector(text):
# 文本分词并编码
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128)
# 获取 BERT 输出
with torch.no_grad():
outpu

最低0.47元/天 解锁文章
1120

被折叠的 条评论
为什么被折叠?



