面试官：“你用过通义DeepResearch做Agent吗？” 一篇回答，Offer直接到手！

原创于 2025-11-28 10:53:40 发布 · 216 阅读

CC 4.0 BY-SA版权

文章标签：

Tongyi DeepResearch 是由 通义实验室 (Tongyi Lab) 开发的一款智能体大语言模型，专门为长程、深度信息检索任务而设计。该模型总参数为 305 亿，但在每个激活的参数仅有 33 亿。

长程深度检索专家： 模型在设计上专注于需要多步骤、长时间交互才能解决的复杂信息搜索任务。
顶尖性能： 在一系列智能体搜索基准上取得了最先进 () 的表现。
模型规模与效率： 采用稀疏激活架构 ( 总参数，激活参数)，兼顾强大的性能和推理效率。
兼容性： 在推理时兼容两种范式：

范式： 用于严格评估模型的核心内在能力。
范式的“重型 (Heavy)”模式： 使用测试时扩展策略，以释放模型的最大性能潜力。

需要配置以下工具的密钥以实现全功能：

网页搜索： (用于网页和搜索)。
网页阅读： (用于网页内容阅读)。
页面总结/文件解析： 兼容和 (用于文件解析)。
代码执行： (用于解释器沙箱)。

构建于一系列深入研究的基础上，其智能体家族项目包括：、、、、、、、、和等。

一、WebWalker

https://arxiv.org/pdf/2501.07572

WebWalkerQA 是一个用于评估LLMs网络遍历能力的具有挑战性的基准。WebWalker 作为一个多智能体框架，有效地模仿了人类的网络导航。实验证明，将 RAG 与 WebWalker 结合，能显著提高网络导航任务的性能。这项工作强调了在基于网络的任务中进行深度、垂直探索的重要性。

WebWalker 是一个多智能体框架，通过垂直探索来模拟人类的网络导航，专门用于信息搜寻。

探索者智能体（Explorer Agent）：

范式： 采用 ReAct 框架（Thought-Action-Observation，T, A, O）。
职责： 通过与网页上的 HTML 按钮进行交互来探索子页面。其动作是选择一个子页面的 URL 进行探索，而不是直接回答问题。
观察： 包含当前页面的信息和一组可点击的子链接（及其对应URL）。

批判者智能体（Critic Agent）：

维护一个记忆（Memory M），逐步积累相关信息。
评估收集到的信息是否足以回答查询。
职责： 在探索者智能体每次执行后运行。它接收查询、探索者的当前观察和行动。
功能：

在所有骨干模型上，WebWalker 框架的性能均优于 Reflexion 和 ReAct 基线。结合 WebWalker 后，RAG 系统的性能在所有难度级别上都有所改善，尤其是在多源查询类别中。WebWalker 可以作为智能体 RAG 系统中的一个模块，实现垂直探索。

二、WebDancer

https://arxiv.org/pdf/2505.22648

WebDancer 是一篇关于构建端到端自主信息搜寻智能体（End-to-end Agentic Information Seeking Agents）的论文，借鉴了 ChatGPT Deep Research 等系统的成功经验，提出了一个系统化的数据驱动和训练阶段范式。

WebDancer 的构建抽象为四个关键阶段，涵盖了数据构建、轨迹采样、SFT 冷启动和 RL 泛化增强。

第一阶段：构建深度信息搜寻数据集（Deep Information Seeking Dataset Construction）
第二阶段：智能体轨迹拒绝采样（Agent Trajectories Rejection Sampling）
第三阶段：智能体监督微调（Agent Supervised Fine-Tuning, SFT）
第四阶段：智能体强化学习（Agent Reinforcement Learning, RL）

三、WebSailor

https://arxiv.org/pdf/2507.02592

WebSailor 提出了一个完整的后训练（post-training）方法论，旨在将这种超人级的复杂推理能力植入到开源智能体中：

SailorFog-QA 数据集： 通过结构化采样和信息模糊化（Information Obfuscation），生成具有高、难减少的不确定性的 Level 3 任务。
推理轨迹重建： 利用强大的 LRM 专家生成行动-观察轨迹，然后重建简洁、面向行动的推理（Thought），作为高质量的 SFT 监督信号。
DUPO 强化学习算法： 提出 **Duplicating Sampling Policy Optimization (DUPO)**，一种高效的智能体 RL 训练算法，以解决多轮交互带来的训练速度慢的问题。

四、WebShaper

https://arxiv.org/pdf/2507.15061

WebShaper 是一篇关于解决信息搜寻智能体（Information-Seeking Agents, IS Agents） 训练数据稀缺和质量问题的方法论论文。

WebShaper 的核心在于：首先系统性地形式化信息搜寻任务（使用集合论），然后以此形式化指导数据合成过程。

作者将信息搜寻任务视为一个统一的问题空间，并基于集合论（Set Theory）首次提出了信息搜寻任务的形式化。

知识投影（Knowledge Projection, KP）： 是 IS 任务的基本单位，定义为。即与集合中实体具有特定关系的所有实体的集合。
KP 操作：

R-Union ()： 用于表示目标对更广泛条件的需求（如不确定的年份范围），满足分配律：。
Intersection ()： 用于表示目标需要同时满足多个条件。

任务形式化： 目标实体集是由多个 KP 通过 R-Union 和 Intersection 递归复合而成的。就是要找出包含的实体。

五、WebWatcher

https://arxiv.org/pdf/2508.05748

大多数研究仍以文本为中心，忽略了现实世界中无处不在的视觉信息。这使得多模态深度研究成为一个巨大的挑战，因为它不仅要求感知能力，还要求在逻辑、知识和工具使用方面具备更强大的推理能力。

WebWatcher 引入了一个具备增强的视觉-语言推理能力的多模态深度研究智能体。

BrowseComp-VL 基准： 提出了一个新的、高难度的多模态 VQA 基准，要求复杂的跨模态信息检索和超人级规划。
数据合成管线： 提出一套生成高难度、多步推理多模态轨迹的管线，实现高效的冷启动训练。
多工具集成： 集成网络图像搜索、文本搜索、网页访问、代码解释器和内部 OCR 等多种工具，支持深层推理。
强化学习优化： 通过 GRPO（Group-Relative Policy Optimization）算法进一步提升泛化能力。

WebWatcher 集成了强大的工具集，包括：

Web Image Search： 检索相关图像、标题和 URL。
Web Text Search： 检索文本信息。
Visit： 访问 URL 并总结网页内容（基于 Jina）。
Code Interpreter： 支持符号计算和数值推理。
**OCR：**内部工具，通过 SFT 数据激活，用于从输入图像中提取文本。

六、WebResearcher

https://arxiv.org/pdf/2509.13309

现有开源智能体范式（Mono-contextual Paradigm）：** 当前主流的开源和早期专有系统（如 WebThinker, WebShaper）都采用单上下文范式，即将所有检索到的信息和中间推理步骤线性积累到一个不断膨胀的上下文窗口中。WebResearcher 提出了一个全新的框架，通过两个关键组件来解决单上下文范式的根本限制：

组件	描述	目标
IterResearch	迭代深度研究范式，将深度研究重新表述为马尔可夫决策过程（MDP）。	通过周期性报告整合和工作空间重构，实现无界的研究深度和持续的高质量推理。
WebFrontier	可扩展数据合成引擎，通过工具增强的复杂性升级，系统性地生成高质量、高复杂度的训练数据。	弥合被动知识回忆与主动知识构建之间的能力鸿沟，解决数据稀缺瓶颈。
Research-Synthesis	推理-合成框架，利用并行研究和集成合成实现测试时扩展。	在长程复杂任务中，充分利用多智能体的发散探索优势，得出更可靠结论。

智能体在每回合生成一个结构化的三元组，指导其决策：

Think： 智能体的认知草稿，用于内部推理、评估前一步结果、反思进展，并制定下一步计划（不保留到下一回合，防止干扰）。
Report（核心）： 智能体的中央记忆。它不只是附加原始数据，而是综合新发现和现有知识，生成连贯、高密度的摘要。这个更新后的报告用于构建下一回合的工作空间。
Action： 具体行动，包括：

Tool Call： 调用外部工具（搜索、浏览、Python 等）。
Final Answer： 终结行动，认为有足够证据解决问题。

七、WebWeaver

https://arxiv.org/pdf/2509.13312

多数方法遵循静态研究管道，将规划（大纲）与证据获取（搜索）解耦，例如：“先搜索后生成”或“先静态大纲后搜索”。这导致大纲基于过时的内部知识或受限于初次搜索范围，缺乏适应性。WebWeaver 引入了一种双智能体框架，模仿人类研究过程，以解决上述挑战。

智能体	核心功能	解决问题
Planner (规划者)	动态研究周期：交错进行证据获取和大纲优化。输出一个带引用的综合大纲，链接到证据记忆库。	解决了静态规划问题，确保大纲适应最新的发现；提高了证据搜集的针对性。
Writer (撰写者)	分层检索与写作：逐节撰写报告，通过大纲中的引用，从记忆库中精准检索仅需的证据。	解决了长上下文问题、注意力分散和引用幻觉，确保证据可靠性和报告结构。

WebWeaver 的工作流分为规划阶段（Planner）和合成阶段（Writer）。Planner 负责探索性研究，其核心是动态研究周期，模仿人类专家允许草稿和搜索共同演进。

Planner 迭代地选择三个行动之一：搜索、撰写大纲、终止。

证据获取 (Search)： 当证据不足时，执行搜索。

LLM 根据标题和片段选择相关 URL。
对选定页面：LLM 提炼出查询相关的简短摘要（用于 Planner 的上下文）和可验证的详细证据（用于存储到记忆库）。

初次检索： 查询搜索引擎，返回 URL、片段和标题。
两阶段过滤：

大纲优化 (Write Outline)： 收集到新证据后，Planner 持续细化和优化报告大纲。

结构调整： 根据新信息扩展章节、添加论点或重组整体结构。
引用填充： 最关键的一步是，在大纲的每个部分填充引用 ID，将其映射到记忆库中存储的相应证据。

终止 (Terminate)： 当大纲足够全面并有证据支撑时，Planner 输出 $\text{}$ 动作，结束规划。

Writer 负责合成报告，其策略是分层、引用驱动、目标注意力写作。

确定子任务： 识别当前要撰写的章节。
目标检索 (Retrieve)： 根据大纲中的引用 ID，从记忆库中提取相关证据。
内部推理 (Think)： 接收检索到的证据后，Writer 进行关键的推理分析。它分析证据、综合见解、选择最具说服力的论据，并制定连贯的叙事结构。
撰写 (Write)： 根据推理结果撰写章节内容。
上下文剪枝： 章节完成后，对应的源材料被显式地从上下文窗口中移除，并替换为占位符。

八、WebReSum

https://arxiv.org/pdf/2509.13313

上下文窗口限制是 ReAct 范式的致命缺陷。复杂的查询（涉及多个实体、交织关系、高不确定性）需要多轮探索才能找到答案。

ReSum 是一种新颖的范式，通过周期性上下文摘要实现无限期探索，从而克服了上下文约束。

组件	描述	目标
ReSum 范式	定期调用摘要工具，将不断增长的交互历史转化为紧凑的推理状态（结构化摘要），并从摘要状态恢复推理。	绕过上下文约束，实现长程、无限制的探索。
ReSumTool-30B	一个专业化的摘要模型，通过目标训练，专门用于提取关键证据、识别信息缺口和指导下一步行动。	提供高效、高质量、目标导向的摘要，克服通用 LLM 在 Web 搜索上下文中的不足。
ReSum-GRPO	一种定制的强化学习（RL）算法，通过分割轨迹训练和优势广播，使智能体适应摘要条件推理。	使智能体掌握 ReSum 范式，无需昂贵的专家数据，并保留其固有推理能力。

ReSum 旨在最大限度地减少对 ReAct 架构的修改，确保即插即用的兼容性。

ReSum 自然地将长轨迹分割成多个训练片段（Episodes）：

每次发生摘要时，轨迹就会被分割。
如果一个完整轨迹经历了次摘要，它将被分割成个训练片段。
每个片段都是一个独立的训练 Episode，其输入是前一个压缩状态。

九、WebSailor-V2

https://arxiv.org/pdf/2509.13305

提出了一个完整的后训练（Post-training）管线，涵盖数据构建、SFT 和可扩展的强化学习，旨在弥合与专有智能体之间的性能差距。

仍基于 ReAct 框架 () 构建，强调其简洁性和通用性。
工具包 (Toolkit)： 包含、、和，以及终止动作。

BackBone	BrowseComp-EN	BrowseComp-ZH	xbench-DeepSearch	GAIA	HLE
DeepSeek-V3.1-671B	30.0	49.2	71.2	63.1	29.8
WebSailor-V2-30B-A3B (SFT)	24.4	28.3	61.7	66.0	23.9
WebSailor-V2-30B-A3B (RL)

开源 SOTA： 在所有基准上均显著超越所有现有的开源智能体。
超越大规模模型： 值得注意的是，这款规模的 MoE 智能体超越了规模的，尤其在HLE（测试深度学术推理）上取得的成绩。

十、AgentFounder

https://arxiv.org/pdf/2509.13310

的成功验证了智能体持续预训练 () 作为一种中间扩展层的有效性，它解决了通用基础模型缺乏智能体归纳偏差的瓶颈，从而显著提高了开源智能体在复杂深度研究任务中的性能。

作者首次提出将 Agentic 持续预训练 (Agentic CPT) 引入深度研究智能体训练管线，以构建预对齐 (pre-aligned) 的智能体基础模型。

十一、AgentScaler

https://arxiv.org/pdf/2509.13311

通用智能体智能的进步受到智能体数据稀缺性的制约。智能体必须在多样的环境中通过交互发展其功能调用能力，因此，功能调用能力的广度与训练环境的多样性密切相关。

AgentScaler通过系统性地扩展环境来推进通用智能体智能的发展，提出了一个两阶段的、可扩展的框架：

任何函数调用都可以抽象为对底层环境数据库的读写操作。同一领域的工具具有结构相似的读写模式，可由共同的数据库模式 捕获。

十二、AgentFold

https://arxiv.org/pdf/2510.24699

基于的智能体在信息检索方面潜力巨大，但其在长程任务中的表现受制于一个根本的上下文管理的权衡问题。

是一种新型的智能体范式，其核心是主动上下文管理，灵感来自人类回顾性整合（retrospective consolidation）的认知过程。

的上下文被划分为四个清晰的组件，实现长程规划和精确情境行动的平衡：

组件	功能定位	组成和作用
用户问题 ()	目标锚点	保持不变，持续提醒智能体的最终目标。
可用工具 ()	行动能力	包含工具的名称、描述和参数，定义了智能体的全部操作能力。
多尺度状态总结 ()	长期记忆	经过主动策展的历史轨迹，保留了关键的逻辑流。包含不同粒度（单步或多步整合）的总结块，噪音少。
最新交互 ()	即时工作记忆	完整、高保真地记录了最近一步的全部交易（包括解释、行动和观察）。

十三、WebLeaper

https://arxiv.org/pdf/2510.24697

基于大语言模型 () 的智能体已成为解决开放式问题的变革性方法，其中信息检索 () 是实现自主推理和决策的核心能力。造成低效率的一个关键因素是训练任务中目标实体的稀疏性，这限制了智能体学习和泛化高效搜索行为的机会。

是一个设计用于提升信息检索效率的数据合成框架，核心包括实体密集型任务合成和信息引导的轨迹构建。

核心理念： 将过程建模为树形结构推理问题，以便在有限的上下文中紧凑地容纳更多目标实体，从而增加的稳定性和训练信号。
数据源： 利用中经过清理的结构化表格，这些表格天然包含丰富的关系信息，可用于高效构建推理树。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述