FlagEmbedding项目教程：深入理解文本嵌入技术及应用-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00549/article/details/148417122

FlagEmbedding项目教程：深入理解文本嵌入技术及应用

FlagEmbedding Dense Retrieval and Retrieval-augmented LLMs 项目地址: https://gitcode.com/gh_mirrors/fl/FlagEmbedding

引言：为什么需要文本嵌入？

在信息检索领域，最直观的方法是模式匹配——通过特定字符、单词、短语或句子模式进行搜索。然而，无论是对于人类还是计算机，在海量文本数据中进行模式匹配都极其低效。就像图像有RGB像素、声波有数字信号一样，我们需要一种有效的方式来表示文本数据，这就是文本嵌入技术应运而生的原因。

文本嵌入技术能够将文本转换为数值向量，为自然语言处理任务如检索、分类、聚类和语义搜索等提供了基础支持。FlagEmbedding项目提供了一系列开源模型，能够满足各种场景下的文本嵌入需求。

文本嵌入技术演进

传统方法及其局限性

早期的文本嵌入方法包括：

One-Hot编码：每个单词用一个长向量表示，仅在对应位置为1
词袋模型(BoW)：统计文档中单词出现频率
TF-IDF：考虑单词在整个语料库中的重要性
BM25：改进的TF-IDF方法
N-gram：捕获小范围内的词序信息

这些方法虽然简单直观，但存在"维度灾难"问题，且无法有效捕捉语义相似性（如"猫"和"猫咪"）和语义差异（如"看手表"和"看比赛"）。

# 词袋模型示例
sentence1 = "我喜欢篮球"
sentence2 = "我有一场篮球比赛"

words = ['我', '喜欢', '篮球', '有', '一场', '比赛']
sen1_vec = [1, 1, 1, 0, 0, 0]  # "我喜欢篮球"的向量表示
sen2_vec = [1, 0, 1, 1, 1, 1]  # "我有一场篮球比赛"的向量表示

现代深度学习方法

为克服传统方法的局限，研究者开发了稠密词嵌入技术，将单词映射到低维向量空间，捕捉语义和关系信息。随着神经网络架构的发展（RNN、LSTM、Transformer等），BERT、RoBERTa、GPT等模型能够更好地捕捉复杂的词语关系和上下文信息。

FlagEmbedding项目中的**BAAI General Embedding (BGE)**系列模型在这些先进技术基础上，提供了多种开源解决方案。

实践：如何使用嵌入模型

现代文本检索的第一步是将文本嵌入为向量。下面我们介绍几种主流嵌入模型的使用方法。

环境准备

首先安装必要的Python包：

%pip install -U FlagEmbedding sentence_transformers openai cohere

设置环境变量（单GPU更适合小规模任务）：

import os 
os.environ['TRANSFORMERS_NO_ADVISORY_WARNINGS'] = 'true'
os.environ['CUDA_VISIBLE_DEVICES'] = '0'  # 使用第一个GPU

准备示例句子：

sentences = [
    "那是一只快乐的狗",
    "那是一个非常快乐的人", 
    "今天是个晴天",
]

开源模型实践

开源模型具有免费、无频率限制、透明可复现等优势。我们重点介绍两个代表性模型。

1. BGE模型

BGE是BAAI发布的嵌入模型和重排序器系列，多个模型在发布时达到当时的最先进水平(SOTA)。

from FlagEmbedding import FlagModel
import numpy as np

# 加载BGE模型
model = FlagModel('BAAI/bge-base-en-v1.5')

# 编码句子
embeddings = model.encode(sentences)
print(f"嵌入向量维度:\n{embeddings.shape}")  # 输出 (3, 768)

# 计算相似度
scores = (embeddings @ embeddings.T).round(3)
print(f"相似度矩阵:\n{scores}")

典型输出：

[[1.     0.79   0.575]
 [0.79   0.9995 0.592]
 [0.575  0.592  0.999]]

分析结果可见，语义相近的句子（关于"快乐"）相似度较高，而与"晴天"的相似度较低。

2. Sentence Transformers

Sentence Transformers库提供了大量预训练嵌入模型和相关数据集。

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

# 编码并归一化
embeddings = model.encode(sentences, normalize_embeddings=True)
print(f"嵌入向量维度:\n{embeddings.shape}")  # 输出 (3, 384)

scores = (embeddings @ embeddings.T).round(3)
print(f"相似度矩阵:\n{scores}")

商业模型实践

商业模型具有内存效率高、系统支持完善、训练数据优质等特点，适合企业级应用。

1. OpenAI嵌入

from openai import OpenAI
import numpy as np

client = OpenAI(api_key="YOUR_API_KEY")

response = client.embeddings.create(
    input=sentences,
    model="text-embedding-3-small"
)

embeddings = np.array([item.embedding for item in response.data])
print(f"嵌入向量维度:\n{embeddings.shape}")  # 输出 (3, 1536)

scores = (embeddings @ embeddings.T).round(3)
print(f"相似度矩阵:\n{scores}")

2. Voyage AI嵌入

import voyageai

vo = voyageai.Client(api_key="YOUR_API_KEY")

result = vo.embed(
    sentences, 
    model="voyage-large-2-instruct"
)

embeddings = np.array(result.embeddings)
print(f"嵌入向量维度:\n{embeddings.shape}")  # 输出 (3, 1024)

scores = (embeddings @ embeddings.T).round(3)
print(f"相似度矩阵:\n{scores}")