2篇最新综述,把Deep Research技术讲透了

 Datawhale分享 

关于:Deep Research,来源:PaperAgent

前几天,阿里开源了Tongyi DeepResearch,热度很高,目前14.1k star了!

开源地址:https://github.com/Alibaba-NLP/DeepResearch

关于Deep Research背后更全面的技术栈都有哪些?今天分享两篇最新的Deep Research技术综述:

传统大模型虽然强大,但受限于静态知识边界,面对开放、动态、复杂的科研任务时往往力不从心。为此,Deep Research 应运而生:

一种让智能体主动探索、动态推理、生成可靠报告的代理研究新范式。

它不再是“问答机”,而是“能自己找资料、写综述、做分析”的AI研究员

Deep Research 的四大核心模块

一个完整的 Deep Research 系统应包括以下四个阶段:

模块

功能

关键挑战

Planning

将用户问题拆解为可执行的研究子目标

如何生成结构化、可解释的研究路径?

Question Developing

为每个子目标生成多样化、上下文相关的检索查询

如何平衡查询的准确性与覆盖度?

Web Exploration

主动调用搜索引擎、浏览网页、提取信息

如何过滤冗余、识别可信来源?

Report Generation

整合证据,生成结构清晰、事实可靠的报告

如何控制结构一致性与事实一致性?

图1:Deep Research 系统架构概览

📊 Planning(研究规划)

✅ 目标

将模糊、开放的研究问题转化为可执行的研究计划,如子问题、检索顺序、证据整合策略。

🔧 方法分类

类别

方法示例

特点

结构化世界知识

Simulate Before Act、WebPilot

利用外部知识图谱或模拟器进行预演

可学习规划

AgentSquare、MindSearch

通过RL或搜索自动优化规划策略

🔍 Question Developing(问题演化)

✅ 目标

将每个子目标转化为多个高质量检索查询,提升信息召回率与相关性。

🔧 方法分类

类别

方法示例

特点

奖励优化类

DeepResearcher、R1-Searcher

用RL优化查询生成策略

监督驱动类

ManuSearch、SearchAgent-X

基于规则或多Agent协作生成查询

🌐 Web Exploration(网页探索)

✅ 目标

主动与网页交互,检索、浏览、提取、过滤信息,支持多轮迭代。

🔧 方法分类

类型

方法示例

特点

网页Agent

WebGPT、WebVoyager

模拟人类浏览行为,支持点击、表单、导航

API检索

Bing/Google Search API

快速、稳定,适合结构化查询

🧾 Report Generation(报告生成)

✅ 目标

将碎片化证据整合为结构清晰、逻辑连贯、事实可靠的研究报告。

🔧 方法分类

类别

方法示例

特点

结构控制

Agent Laboratory、WebThinker

通过大纲、约束、模板控制生成结构

事实一致性

FaithfulRAG、DRAGged

引入冲突检测、证据对齐、引用验证机制

优化:如何让 Deep Research 更靠谱?

传统的大模型问答=“背答案”;

真正的深度研究=多步规划 → 问题演化 → 工具调用 → 结构化报告

SFT/DPO 只能“模仿”人类轨迹,无法闭环利用环境反馈(搜索失败、网页失效、预算超限)。

RL 用轨迹级奖励直接优化“端到端任务成功”,天然契合“工具-交互”研究场景。

方法

优化目标

数据形式

关键短板

SFT

模仿单步

(q, a) 对

暴露偏差、无法纠错

DPO

偏好排序

(q, a⁺, a⁻)

无状态、信用分配短视

RL

最大化回报

(q, τ, r)

需可验证奖励+探索策略

数据:RL的“燃料”怎么炼?

提出 Construct → Curate → Curriculum 三段式流水线:

策略

代表工作

核心技巧

跨文档合成

WebPuzzle、R-Search

新鲜新闻+arXiv聚类→生成多跳问题,防止“背参数”

图结构生长

CrawlQA、WebSailor

从维基/GitHub 根节点随机游走→按路径长度自动标难度

难度变换

E2HQA、StepSearch

用 LLM 迭代给原问题加约束,控制“跳数”与“证据密度”

Figure 3:四级复杂度

Level

特征

示例数据集

L1

单点检索

SimpleQA

L2

线性多跳

HotpotQA

L3

高不确定性+复杂图

SailorFog-QA

L4

多模态+多工具

WebWatcher

奖励:拿什么信号训练“Agent”?

结果奖励(Outcome-only)

  • 经典指标:EM/F1、LLM-as-Judge

  • 新花样

    • GBR(Gain-Beyond-RAG):相比“无脑 top-k RAG”的边际提升

    • Evidence-Utility:用冻结 LLM 只看收集到的证据能否答对;

    • Group 相对节俭:同批次正确轨迹里检索次数最少得 bonus。

步骤奖励(Step-level)

  • 工具执行奖励:MT-GRPO 给“成功调用+返回含答案片段”即时 bonus;

  • 信息增益 - 冗余惩罚:StepSearch 用余弦增量衡量每轮收获;

  • 多模态步骤:Visual-ARFT 对每轮图片裁剪→OCR→代码打分。

信用分配(Credit Assignment)

粒度

做法

代表

轨迹级

整条 τ 用 GAE

Search-R1

回合级

每轮混合即时+终端奖励

MT-GRPO

Token 级

工具调用边界挂奖励

ARTIST

开源系统:让RL训练“跑得动”

长工具链 = 高延迟 + 大显存 + 策略过期。2025 新框架亮点:

论文1:https://arxiv.org/pdf/2509.06733

Reinforcement Learning Foundations for Deep Research Systems: A Survey

论文2:https://arxiv.org/abs/2508.12752

Deep Research: A Survey of Autonomous Research Agents

图片

一起“赞”三连

<think>我们正在讨论深度研究方法,特别是与人工智能和深度学习相关的研究。用户的问题是如何进行深度研究,包括方法和实现。因此,我们需要提供一个关于深度研究的系统方法,并可能涉及深度学习的研究实现。深度研究(Deep Research)通常指的是对一个主题进行深入、全面和系统的调查,以发现新的知识、理论或应用。在人工智能和深度学习领域,深度研究可能包括理论创新、算法改进、实验验证等。我们将按照以下步骤组织回答:1.定义研究问题:明确研究的目标和范围。2.文献综述:全面了解已有研究成果。3.研究方法:选择适当的研究方法(理论分析、实验设计等)。4.实验与验证:在深度学习研究中,通常包括模型设计、数据集选择、训练和评估。5.结果分析与讨论:解释结果并讨论其意义。6.写作与发表:将研究成果写成论文并发表。由于用户特别提到了“深度学习研究实现”,我们将重点放在深度学习研究的实验部分,包括代码实现示例。注意:在回答中,我们将使用LaTeX格式表示数学公式,代码部分使用代码块。下面开始回答:</think>### 深度研究方法与实现指南 深度研究(Deep Research)是一种系统化的知识探索方法,在人工智能和深度学习领域尤其重要。以下是关键步骤和实现方法: #### 1. **问题定义与范围界定** - **明确研究目标**:确定要解决的核心问题(如改进图像识别准确率) - **可行性分析**:评估数据/计算资源的可获得性 - **研究假设**:建立可验证的假设(如"注意力机制可提升小样本学习效果") #### 2. **文献综述方法论** ```mermaid graph LR A[文献检索] --> B(关键词策略) B --> C[核心论文溯源] C --> D[最新进展追踪] D --> E[建立知识图谱] ``` - **工具推荐**:Zotero文献管理,Connected Papers可视化分析 - **关键技巧**:关注顶级会议论文(NeurIPS/ICML/CVPR)的引用链[^1] #### 3. **研究设计与实现** **深度学习实验框架:** ```python import tensorflow as tf from tensorflow.keras.layers import * def build_research_model(input_shape): inputs = Input(shape=input_shape) x = Conv2D(32, (3,3), activation='relu')(inputs) x = MaxPooling2D()(x) # 研究变量注入点(如注意力模块) x = AttentionGate()(x) # 自定义研究组件 x = Flatten()(x) outputs = Dense(10, activation='softmax')(x) return tf.keras.Model(inputs, outputs) ``` **实验控制关键点:** 1. **变量隔离**:使用A/B测试对比基线模型 2. **评估指标**:除准确率外加入$\text{F1} = 2 \times \frac{\text{precision} \times \text{recall}}{\text{precision} + \text{recall}}$ 3. **可复现性**:固定随机种子并记录超参数 #### 4. **知识发现与验证** - **统计验证**:使用假设检验验证效果显著性 $$p\text{-value} < 0.05 \Rightarrow \text{效果显著}$$ - **消融研究**:逐层移除组件验证贡献度 - **错误分析**:可视化失败案例寻找改进方向 #### 5. **成果转化与迭代** - **论文撰写**:遵循IMRAD结构(引言、方法、结果、讨论) - **开源实现**:提供完整代码和预训练模型 - **持续改进**:根据peer review反馈进行迭代 > **案例**:Google Brain的Transformer研究通过200+次架构迭代实现突破,关键步骤包括:1) 分析RNN梯度消失问题 2) 设计自注意力机制 3) 在WMT数据集验证效果[^2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值