Search-R1：让 LLM 学会 “边搜边想”，强化学习赋能检索增强推理

Search-R1：LLM与搜索引擎的深度协同

最新推荐文章于 2025-07-28 16:20:54 发布

原创最新推荐文章于 2025-07-28 16:20:54 发布 · 981 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法 #javascript #音视频 #数据库 #网络 #深度学习

1 简介

在大语言模型的能力边界不断拓展的今天，一个关键挑战始终存在：如何让模型既能精准推理，又能高效利用外部知识？传统的检索增强生成（RAG）或工具调用方法往往局限于固定流程或依赖大量标注数据，难以让模型自主掌握 “何时搜?搜什么?如何用?” 的技巧。于是在今年游研究人员提出了Search-R1(Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning)，提出了一种全新的强化学习（RL）框架，让 LLM 学会在推理过程中 “自主调用搜索引擎”，实现了推理与检索的深度协同。通过实验发现，Search-R1在多个QA数据集上达到了20%（Qwen2.5-3B）跟41%(Qwen2.5-7B)的提升。

2 Search-R1

Search-R1 的核心思路是：将搜索引擎视为环境的一部分，通过 RL 训练 LLM 在推理过程中自主生成搜索查询、利用检索结果、迭代优化答案，最终实现 “推理+检索” 的无缝协同。相比传统的大模型框架，它在生成的response的过程中引入搜索引擎，由p(y|x)变成了p(y|x+search engine)。

# 模型prompt如下Answer the given question. You must conduct reasoning inside <think> and </think> first every time you get new information. After reasoning, if you find you lack some knowledge, you can call a search engine by <search> query </search>, and it will return the top searched results between and . You can search as many times as you want. If you find no further external knowledge needed, you can directly provide the answer inside <answer> and </answer> without detailed illustrations. For example, <answer> xxx </answer>. Question: question.

2.1 融合搜索引起的RL框架：让检索成为推理的“自然步骤”

传统 RL 框架中，LLM 的输出仅依赖自身生成。而 Search-R1 将搜索引擎纳入环境，允许模型生成的轨迹中穿插推理步骤和检索操作。

模型生成推理内容时，若需外部知识，会用查询内容标记主动调用搜索引擎；
搜索引擎返回的结果会被包裹在…中，作为后续推理的上下文；
最终答案用…标记，形成 “推理 - 检索 - 再推理” 的闭环。

为避免检索内容干扰模型训练，Search-R1 提出检索 token 掩码机制。训练时仅对模型自身生成的 token（推理步骤、查询）计算损失，忽略检索到的外部内容，确保优化方向聚焦于 “如何有效调用检索” 而非 “记忆检索内容”。

2.2 多轮交互流程：像人类一样“按需检索”

Search-R1 的推理过程类似人类解决问题的逻辑，遇到不确定的信息时主动查资料，根据新信息调整思路，直到得出答案。这种设计让模型能根据推理进度动态调整检索策略，例如多轮问答中，每一步推理都可触发新的检索，避免 “一次检索定终身” 的局限。

模型先基于问题进行初步推理（用<|FunctionCallBegin|>…<|FunctionCallEnd|>标记）；
若发现知识缺口，生成搜索查询（…），调用搜索引擎；
结合检索结果（…）继续推理，必要时重复检索；
完成推理后输出最终答案（…）。

2.3 简单有效的奖励机制：用“结果”引导“过程”

不同于复杂的过程奖励，Search-R1 采用基于最终结果的奖励函数，仅根据答案的正确性（精确匹配EM分数）给予奖励。这种设计的优势在于：

无需标注 “检索质量” 等中间过程，降低数据依赖；
让模型自主学习 “哪些检索行为能导向正确答案”，更符合实际应用场景。

3 实验

研究人员采用了Qwen2.5的3B/7B两种模型参数规模，base/Instruct两种模型类型作为基底模型，设置了3个不同的control组跟Search-R1进行对比。

推理不引入搜索引擎
推理时引入传统RAG
SFT但不引入搜索引擎

4 实验结论

Search-R1 性能碾压基线，提升幅度显著。

Qwen2.5-7B在 7 个数据集上平均准确率比最佳 RAG 基线高 41%，在多轮 QA 任务（如 Bamboogle）上提升尤为明显（从 20.8%→43.2%）；Qwen2.5-3B平均提升 20%，证明该框架在中小模型上同样有效；即使与 R1相比，Search-R1 因引入外部知识，在知识密集型任务上优势显著（如 NQ 任务从 29.7%→48.0%）。

通过消融实验验证了检索token掩码策略，不同RL方法跟模型类型的影响。

检索 token 掩码：有无掩码的性能差距达 8.8%（平均准确率 43.1% vs 34.3%），证明其对训练稳定性的重要性；

RL 方法选择：PPO 比 GRPO 训练更稳定（GRPO 易出现 “奖励崩塌”），但最终性能接近；

模型类型影响：指令微调模型（Instruct）初期收敛更快，但经过充分训练后，基础模型（Base）可达到相近性能，说明 RL 能弥补指令微调的优势。

模型学会了 “聪明检索”

通过分析训练过程发现，模型的行为会随训练优化。早期阶段：减少冗余表达，专注核心推理。后期阶段：有效检索次数增加，响应长度因融入检索内容而变长，且准确率同步提升。

5 讨论

Search-R1 的突破在于：用 RL 打通了 “推理-检索” 的协同链路，让 LLM 从 “被动使用检索结果” 变为 “主动规划检索策略”。其核心优势是：

无需大量标注的交互轨迹，仅用最终答案即可训练；
检索与推理深度融合，适应动态知识需求；
兼容不同 RL 算法和模型规模，实用性强。

相比传统RAG，需要把检索内容喂LLM嘴里，Search-R1更加智能化，主要选择何时去搜索+如何搜索+如何使用搜索内容，缓解了以前的很多遗留问题，也是一种更加合理的形态。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述