Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

这篇文章提出的Search-R3框架,核心是打破大语言模型(LLMs)推理能力与嵌入生成的割裂,通过两阶段训练让LLMs在推理过程中直接生成高质量搜索嵌入,显著提升复杂检索任务性能。

一、文章主要内容总结

文章围绕“如何让LLMs同时具备推理与嵌入生成能力”展开,核心内容分为框架设计、训练流程、实验验证三部分:

  1. 核心问题:现有检索系统中,LLMs的推理能力与嵌入模型(如BERT类)的向量生成相互独立,导致LLMs无法通过语义分析优化嵌入质量,难以处理需要多步推理的复杂检索任务。
  2. 框架设计:提出Search-R3(Reasoning-Reinforced Representation for Search),将嵌入生成视为LLMs推理过程的直接结果。通过“预填充(Prefill)-生成(Generation)”模式,先让模型输出查询意图的分析推理步骤,再生成包含语义信息的<|embed_token|>,从该token的隐藏状态中提取嵌入向量。
  3. 两阶段训练
    • 阶段1:指令引导表示学习:结合监督微调(SFT)与对比学习,让模型学会生成<|embed_token|>,并通过复合损失函数(L=LSFT+LKL+LInfoNCE+LTripletMargin)优化嵌入空间,确保语义相似内容聚类。
    • 阶段2:强化学习优化:基于GR
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值