如何快速领域增强 RAG 的 Embedding 模型_百川ai embdding-优快云博客

1. 研究背景

1.1 Embedding 模型在 RAG 中的重要性

检索增强技术（RAG）提供了一种高效地更新领域知识，并且缓解模型幻觉问题的方法。在通常的 RAG 流程中，首先以向量数据库、索引库的形式存储领域知识；在用户提问时，在向量库和索引库中匹配与用户问题相关性最高的知识片段；最后，大模型根据用户问题和检索得到的知识片段，推理归纳并给出回答。

在 RAG 方法中，检索到正确的知识片段是最终能正确回答用户问题的前提。在稠密向量检索过程中，Embedding 模型将知识片段、用户问题转换为向量，通过计算向量间的余弦相似度得到与用户问题相关性最高的知识片段。因此 Embedding 模型决定了稠密向量检索的结果，一个好的 Embedding 模型可以让 RAG 整体效果显著提升。

1.2 真实场景需要增强Embedding模型效果

近年来，Embedding 模型得到学术界和工业界广泛的关注，并发布了一系列优秀的研究工作和开源模型。在众多主流的开源 Embedding 模型中，bge-m3 基于 BERT 模型通过多阶段训练得到，因其较小的参数规模、较长的窗口长度和较强的通用能力被广泛使用；gte 系列模型基于通义千问大模型训练得到，在众多评测集中表现出色；在前沿探索中，基于Mistral大模型训练的 NV-Embd、E5-Mistral 和 bge-icl 等模型在训练中引入了 few-shot 方法和更多的数据处理策略。

但是，以上 Embedding 模型的工作更多关注在通用领域，Embedding 模型还没有学习到企业内部数据和知识，在实际落地实践中效果并不好。比如，在金融领域 Embedding 模型评测集 FinMTEB 中可以发现，当前的主流 Embedding 模型在金融领域 hard 测试集表现一般，相比在通用评测集 MTEB 的平均分数有较大程度下降。在客户场景快速增强 Embedding 模型并提升在领域测试集的效果，是值得研究的课题，也是企业落地 RAG 的重要工作。