Sentence Transformers 快速入门指南：文本嵌入与语义相似度计算

尤贝升Sherman

于 2025-06-02 09:04:32 发布

阅读量394

点赞数 5

本文链接：https://blog.youkuaiyun.com/gitblog_00633/article/details/148375557

版权

Sentence Transformers（也称为双编码器模型）是一种专门用于生成文本嵌入（embedding）的深度学习模型。它将任意长度的文本转换为固定维度的向量表示，这些向量能够很好地捕捉文本的语义信息。

from sentence_transformers import SentenceTransformer

# 加载预训练模型（这里使用all-MiniLM-L6-v2作为示例）
model = SentenceTransformer("all-MiniLM-L6-v2")

all-MiniLM-L6-v2是一个经过优化的轻量级模型，在超过10亿训练样本上微调，输出384维向量，平衡了性能与效率。

sentences = [
    "今天天气真好",
    "外面阳光明媚！",
    "他开车去了体育场"
]

# 计算句子嵌入
embeddings = model.encode(sentences)
print(embeddings.shape)  # 输出: (3, 384)

similarities = model.similarity(embeddings, embeddings)
print(similarities)

输出示例：

[[1.0000, 0.7560, 0.1246],
 [0.7560, 1.0000, 0.1511],
 [0.1246, 0.1511, 1.0000]]

从结果可见，前两句关于天气的描述相似度较高（0.7560），而与第三句关于开车的描述相似度较低（约0.13）。

交叉编码器直接计算文本对之间的相似度得分，通常比双编码器更准确但计算成本更高。

from sentence_transformers import CrossEncoder

model = CrossEncoder("cross-encoder/stsb-distilroberta-base")

query = "一个男人在吃意大利面"
corpus = [
    "一个男人在吃东西",
    "一个男人在吃一片面包",
    "女孩抱着婴儿",
    # 更多句子...
]

# 对语料库中的句子进行排序
ranks = model.rank(query, corpus)

sentence_pairs = [[query, sentence] for sentence in corpus]
scores = model.predict(sentence_pairs)

Sentence Transformers为各种NLP任务提供了强大的语义理解能力，通过合理选择模型和优化策略，可以在实际应用中实现出色的性能表现。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考