RAG 优化 Embedding 模型或调整检索策略

最新推荐文章于 2025-07-05 10:00:00 发布

小赖同学啊

最新推荐文章于 2025-07-05 10:00:00 发布

阅读量532

点赞数 5

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签： embedding

本文链接：https://blog.youkuaiyun.com/testManger/article/details/146857781

在 RAG（Retrieval-Augmented Generation）系统中，优化 Embedding 模型和调整检索策略是提升检索质量的核心手段。以下是系统化的优化方法和实践指南：

一、优化 Embedding 模型

Embedding 模型的质量直接决定检索的召回率（Recall）和准确率（Precision）。优化方向包括：

1. 选择或微调更强大的 Embedding 模型

(1) 模型选型

通用场景：
- text-embedding-3-large（OpenAI）
- bge-large-en-v1.5（中文/英文，智源）
- gte-large（通用文本嵌入，阿里）
领域适配：
- 使用领域数据微调开源模型（如 bge、e5）。
- 示例：医疗领域可微调 ClinicalBERT 的 Embedding 层。

(2) 微调方法

数据准备：构建领域相关的（query, positive_doc, negative_doc）三元组。
损失函数：
- 对比学习（Contrastive Loss）
- 三元组损失（Triplet Loss）

工具库：

from sentence_transformers import SentenceTransformer, losses
model = SentenceTransformer("bge-base-en")
train_loss = losses.

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小赖同学啊

关注关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

RAG 之 Embedding 模型（一）

Muti-Agent

06-01

2614

M3E 是 Moka Massive Mixed Embedding 的缩写。Moka，此模型由 MokaAI 训练，开源和评测，训练脚本使用 uniem ，评测 BenchMark 使用 MTEB-zhMassive，此模型通过千万级 (2200w+) 的中文句对数据集进行训练；Mixed，此模型支持中英双语的同质文本相似度计算，异质文本检索等功能，未来还会支持代码检索；Embedding，此模型是文本嵌入模型，可以将自然语言转换成稠密的向量。

RAG 之 Embedding 模型 M3E（二）

Muti-Agent

06-05

1299

本篇文章主要介绍 M3E 模型的使用方法，关于M3E模型的介绍可以参考。

参与评论您还未登录，请先登录后发表或查看评论

Embedding 模型的选择和微调

python1234567_的博客

06-14

4467

深度学习embedding方法，降维，以及pytorch中使用embedding

weixin_41106546的博客

04-24

8440

形式上讲，Embedding就是用。

Embedding模型微调实战：深入探索领域应用与优化策略！

2401_85343303的博客

06-07

1050

本文详细介绍了Embedding模型在领域微调中的实战方法，针对通用Embedding模型在特定领域效果不佳的问题，从原理到实践逐步展示了微调流程。主要内容包括：1) 通过领域微调提升Embedding模型在特定任务中的检索效果；2) 使用Huggingface和AirBench-QA数据集进行实验，比较微调前后的性能变化；3) 探讨了数据合成、难负例挖掘等关键技术；4) 实践结果表明，在优质领域数据上进行全参数微调可显著提升模型效果，但需注意数据分布匹配问题以避免性能下降。文章还提供了完整的代码实现和数据

通过微调 Embedding 优化 RAG

qkh1234567的博客

12-19

793

RAG 中的嵌入是文本的密集向量表示；这与将单词表示为高维稀疏向量的独热编码不同；嵌入将这些信息压缩为低维和连续向量，捕获单词之间的语义关系，使模型理解上下文。因此，嵌入基本上涉及将文本转换为能够理解语义关系的低维向量表示。您在 RAG 系统中嵌入了什么？您正在嵌入用户传递的提示和要检索的自定义文档/权威领域特定知识。这样做是为了让信息检索在语义上与传递的提示一致。下一步是在开发 RAG 系统并选择 LLM（例如 GPT-4）时选择检索模型。

09｜语义检索，利用Embedding优化你的搜索功能

qq_37756660的博客

02-01

2131

在过去的 8 讲里面，相信你已经对 Embedding 和 Completion 接口非常熟悉了。Embedding 向量适合作为一个中间结果，用于传统的机器学习场景，比如分类、聚类。而 Completion 接口，一方面可以直接拿来作为一个聊天机器人，另一方面，你只要善用提示词，就能完成合理的文案撰写、文本摘要、机器翻译等一系列的工作。不过，很多同学可能会说，这个和我的日常工作又没有什么关系。的确，日常我们的需求里面，最常使用自然语言处理（NLP）技术的，是搜索、广告、推荐这样的业务。

一文搞懂RAG——检索模块优化 (Optimizing Retriever)优化技巧

最新发布

2401_85325726的博客

07-05

669

搭建基础的RAG系统只是第一步，要使其在实际应用中表现出色，性能优化至关重要。优化可以从检索模块、生成模块以及系统整体等多个层面进行。

手工微调embedding模型，让RAG应用检索能力更强

python122_的博客

06-24

4498

在本文中，我们探讨了微调RAG管道的Embedding模型所涉及的步骤。我们使用开源的模型作为我们的基本Embedding模型，介绍了如何生成用于训练和评估的数据集，如何对其进行微调，以及如何评估基本模型和微调模型之间的性能差异。评估结果表明，微调Embedding模型的性能比基本模型提高了1-6%，与OpenAI的Embedding模型相比，微调模型的性能损失仅为4.85%。这种性能提升可能因数据集的质量和数量而异。

【AI大模型应用学习笔记】RAG-Embedding-Vector知识点学习

etrospect的博客

05-10

658

关于RAG-Embedding-Vector知识点，以及RAG实现的基本流程实操记录

一文彻底搞懂检索增强生成(RAG) 优化策略

2401_85379281的博客

12-30

3946

本文详细介绍了检索增强生成（RAG）技术的各个优化策略，包括文档块切分、文本嵌入模型、提示工程、大模型迭代、架构优化、索引优化、索引数据优化等多个方面。通过这些优化策略，RAG 技术在处理复杂查询和生成信息丰富回应方面展示了巨大的潜力。未来，RAG 技术将在垂直优化、横向扩展以及生态系统构建等方面继续发展，为多领域应用提供更低的训练成本和更优的性能表现。读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用如果你是零基础小白，想快速入门大模型是可以考虑的。

推荐系统中稀疏特征Embedding的优化表示方法

python12345_的博客

08-14

898

推荐系统中稀疏特征 Embedding 的优化表示方法

m0_37586850的博客

05-15

1432

文章作者：张俊林新浪微博 AI Lab 负责人内容来源：AI前线导读：推荐或者 CTR 预估任务有一个很突出的特点：存在海量稀疏特征。海量意味着数量巨大，稀疏意味着即使在很大的训练数据...

LM+Embedding构建问答系统的局限性及优化方案

张伟的专栏

07-09

1220

首当其冲的是：多知识点聚合处理场景下，Embedding-Search召回精度较低的问题。一个仓库有 N 条记录，每个记录有 M 个属性；用户希望对 x 条记录的y 个属性进行查询、对比、统计等处理。# 多知识点——简单查询Q: 皮蓬、英格利什和布兰德的身高、体重各是多少？# 多知识点——筛选过滤Q: 皮蓬、英格利什和布兰德谁的第一位置是 PF？# 多知识点——求最值Q: 皮蓬、英格利什和布兰德谁的金徽章数最多？LLM 的出现，推动下游应用激烈变革，各种探索如火如荼地展开。

Embedding模型优化训练：提升文本表示能力的关键策略

2401_85379281的博客

11-27

1059

为特定任务或数据集引入自定义的嵌入向量，可以更好地表示文本特征。例如，在医疗领域，可以为医学术语创建自定义嵌入向量；在金融领域，可以为金融词汇创建自定义嵌入向量。领域知识融合：将领域知识融入到Embedding模型中，使模型能够学习到领域特定的语义信息。任务导向优化：根据具体任务的需求对Embedding模型进行优化训练，使模型能够更好地适应任务场景。

使用 ollama 部署本地模型，零基础入门到精通，非常详细收藏我这一篇就够了

m0_65555479的博客

08-15

3009

在本地启动并运行大型语言模型。运行Llama 2，Code Llama和其他模型。自定义并创建您自己的。

回答好3个关键问题，深入理解 RAG 中的 Embedding 如何优化知识检索！

surfirst的博客

12-09

638

在 RAG 系统中，Embedding 是连接检索与生成的重要桥梁。它通过将文本、问题或上下文表示为高维向量，使得计算机能够用数学方式理解语义之间的关系。正是 Embedding 技术，让 RAG 系统能够快速、精准地找到最相关的信息块，推动问题回答、对话生成等任务达到新的高度。本文将深入解读 Embedding 的概念及其在 RAG 系统中的关键作用，并探讨如何选择和评估 Embedding 模型，以帮助你更好地理解这一核心技术在实际应用中的表现。

RAG 之 Embedding 模型

04-23

### RAG 架构中的 Embedding 模型 RAG（Retrieval-Augmented Generation）架构是一种结合检索和生成的混合方法，其核心在于通过外部知识库增强生成模型的能力。在该架构中，Embedding 模型主要用于表示查询和文档的内容，以便于高效地进行相似度计算和检索。 #### 查询嵌入与文档嵌入为了支持高效的检索操作，RAG 使用两个主要类型的 Embedding 模型： 1. **Query Encoder**: 将用户的输入查询转换为固定维度的向量表示。这种编码器通常基于预训练的语言模型（如 BERT 或 RoBERTa），能够捕捉语义信息并将其映射到高维空间[^1]。 2. **Document Encoder**: 对存储的知识库中的每个文档片段进行编码，同样生成固定维度的向量表示。这些向量会被预先计算好并存放在索引结构中（例如 FAISS 或 Annoy），用于加速最近邻搜索过程[^2]。 #### 实现细节以下是关于如何实现 RAG 中的 Embedding 部分的一些具体技术要点： - **Pre-trained Models**: Query 和 Document Encoders 均可以采用相同的预训练语言模型作为基础组件。这有助于减少参数数量，并提高跨模态匹配的效果。例如，在原始论文中，DPR (Dual Passage Retrieval) 被用来构建这两个部分[^3]。 ```python from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") def encode(texts, max_length=512): inputs = tokenizer( texts, padding=True, truncation=True, return_tensors="pt", max_length=max_length ) outputs = model(**inputs) embeddings = outputs.last_hidden_state[:, 0, :] # CLS token representation return embeddings.detach().numpy() ``` - **Index Construction**: 文档嵌入的结果需要被保存在一个专门设计的数据结构里以供快速查找。常用的工具包有 Facebook 的 FAISS 库或者 Spotify 开发的 Annoy 库。它们允许我们执行近似最近邻搜索来找到最相关的几个候选文档[^4]。 ```python import faiss import numpy as np dimension = 768 # Assuming we use bert-base with this output size. index = faiss.IndexFlatIP(dimension) # Inner Product similarity measure. doc_embeddings = ... # Array of shape [num_docs, dim]. index.add(doc_embeddings.astype('float32')) ``` - **Training Strategy**: 如果目标领域内的数据充足，则可以通过微调的方式进一步优化 Query 和 Document Encoders 的性能；如果缺乏足够的标注样本，则可能考虑使用无监督对比学习框架来进行调整[^5]。 #### 总结综上所述，RAG 架构下的 Embedding 模型实现了从自然语言文本到稠密向量空间的有效映射，从而促进了后续阶段的信息检索效率以及最终响应的质量提升。