这篇文章提出的Search-R3框架,核心是打破大语言模型(LLMs)推理能力与嵌入生成的割裂,通过两阶段训练让LLMs在推理过程中直接生成高质量搜索嵌入,显著提升复杂检索任务性能。
一、文章主要内容总结
文章围绕“如何让LLMs同时具备推理与嵌入生成能力”展开,核心内容分为框架设计、训练流程、实验验证三部分:
- 核心问题:现有检索系统中,LLMs的推理能力与嵌入模型(如BERT类)的向量生成相互独立,导致LLMs无法通过语义分析优化嵌入质量,难以处理需要多步推理的复杂检索任务。
- 框架设计:提出Search-R3(Reasoning-Reinforced Representation for Search),将嵌入生成视为LLMs推理过程的直接结果。通过“预填充(Prefill)-生成(Generation)”模式,先让模型输出查询意图的分析推理步骤,再生成包含语义信息的
<|embed_token|>,从该token的隐藏状态中提取嵌入向量。 - 两阶段训练:
- 阶段1:指令引导表示学习:结合监督微调(SFT)与对比学习,让模型学会生成
<|embed_token|>,并通过复合损失函数(L=LSFT+LKL+LInfoNCE+LTripletMargin)优化嵌入空间,确保语义相似内容聚类。 - 阶段2:强化学习优化:基于GR
- 阶段1:指令引导表示学习:结合监督微调(SFT)与对比学习,让模型学会生成

订阅专栏 解锁全文
643

被折叠的 条评论
为什么被折叠?



