【内部视角】钉钉DeepResearch如何让智能体像人一样学习?我们拆解了这套企业级智能框架!

钉钉DeepResearch:企业级多智能体深度研究框架全解析

一、研究背景:企业场景下的智能研究难题

任务定义

本文提出了Dingtalk-DeepResearch——一个统一的多智能体智能框架,专门面向真实企业环境,能够实现深度研究、异构表格推理和多模态报告生成。

研究动机

随着大语言模型的快速发展,深度研究系统已成为复杂信息获取和综合的重要工具。但真实企业场景带来了额外的复杂性挑战:

  • 数据源异构性:企业数据横跨长文档、半结构化表格、知识图谱和多媒体内容
  • 推理复杂性:查询不仅需要事实检索,还需要跨域、多跳推理和精确的上下文定位
  • 部署要求:实际应用需要及时信息、个性化能力,以及与业务流程的深度集成

现有系统的局限

论文分析了几个知名的深度研究框架的不足:

  • OpenAI的研究导向智能体:擅长集成公开信息源,但在私有数据整合和动态优化方面有限
  • Anthropic的Claude Research Workbench:强调安全性和可控性,但缺少自动化评估和持续优化机制
  • Google DeepMind的Deep Research:适合大规模公开数据,但对复杂表格处理和企业资源链接支持不足
  • Perplexity的专业研究模式:融合对话式搜索,但符号推理能力、长期记忆和端到端自适应学习较弱

共同问题:依赖静态提示或固定脚本,缺乏从真实反馈中进行自适应优化;长期记忆和动态演化机制不足;表格结构化推理与文本综合割裂;缺少评估驱动的闭环以进行迭代模型再训练。

核心贡献

为解决这些问题,Dingtalk-DeepResearch提出了三层架构:

  1. Agent Studio层:提供可配置的专业和个人智能体,用于深度研究、表格处理和数据分析
  2. Core层:集成上下文压缩、推理与规划、工具编排、长短期记忆、人机协同控制和熵引导的自我进化
  3. Data Layer层:提供全面的多模态数据支撑,涵盖企业、行业、个人和合成数据源

突出特性:内置DingAutoEvaluator模块,持续挖掘低性能案例,通过多维度指标评估,并将结果反馈到训练循环中,驱动文档生成的强化学习优化和表格推理的NL2SQL模块定向再训练。

二、相关工作:现有深度研究系统对比

论文对主流深度研究框架进行了系统梳理:

OpenAI研究导向智能体

  • 优势:利用GPT系列模型进行多轮规划和网络检索,在集成公开信息源方面表现高效
  • 不足:私有数据集成能力有限,缺乏动态优化机制

Anthropic Claude Research Workbench

  • 优势:强调安全性和可控性,加强人机协同指导
  • 不足:缺乏自动化评估和部署环境的持续优化机制

Google DeepMind Deep Research

  • 优势:结合搜索编排与思维链推理,适合大规模公开数据处理
  • 不足:对复杂表格处理和企业资源链接的支持有限

Perplexity专业研究模式

  • 优势:融合对话式搜索与信息源扩展
  • 不足:符号推理能力、长期记忆和端到端自适应学习能力较弱

关键差距:这些系统普遍存在静态化问题——依赖预设提示,缺乏从实际反馈中学习的能力;表格推理与文本生成相互独立;没有形成评估-训练-优化的闭环。

三、核心方法:多阶段训练与自适应学习

3.1 大规模多阶段文档强化学习

Dingtalk-DeepResearch设计了一套多阶段训练流程,结合了静态语料和实时查询的强化学习:

阶段1:奖励模型(Doc-RM)训练
  • 在约80万人工标注的正负样本对上训练文档特定奖励模型
  • 评估维度:事实准确性、语义覆盖、逻辑结构、表达清晰度
  • 正样本体现高质量、有据可依的长文档回答
  • 负样本包含事实错误、遗漏、冗余或格式问题
阶段2:结构化查询格式的冷启动SFT
  • 3,200个精选样本上进行监督微调
  • 覆盖四大类格式:
  • 视觉呈现生成:基于Markdown的PPT幻灯片构建
  • 结构化数据解释:复杂表格解析和总结
  • 多节综合叙述:技术摘要、对比分析简报
  • 领域特定模板:合规文档和标准化行业报告

训练时明确奖励模型生成内容准确、逻辑结构清晰且文本格式美观的输出——包括排版一致性、语义强调(粗体和斜体)、对齐良好的表格和列表。

阶段3:静态文档集合上的RL
  • 使用训练好的Doc-RM作为奖励函数
  • 在跨多个行业和知识领域的大型离线文档库上进行强化
  • 建立稳定的文档综合能力基线
阶段4:实时文档获取的RL
  • 设计10,000个精心构建的时间敏感查询
  • 包括两类特殊场景:
  • "事后诸葛"场景:必须避免后见之明偏见
  • "过时信息"场景:需要最新监督信号
  • 实时搜索和网页爬取提供查询时的新鲜文档
阶段5:基于Copilot的在线DPO
  • 从真实用户交互中学习
  • 收集模型原始输出与用户编辑版本
  • 测量内容和格式的差异
  • 形成在线直接偏好优化(DPO)数据集

3.2 熵引导的自适应在线学习

不同于传统的静态架构,Dingtalk-DeepResearch采用熵引导、记忆感知的在线学习机制,使智能体能够持续适应演化的任务,而无需重新训练底层LLM。

核心机制

记忆库检索

  • 智能体维护一个外部的情节记忆库(episodic memory bank)
  • 根据当前任务状态,计算存储案例的概率分布
  • 分布由估计的Q值塑造,并由温度参数调节

平衡探索与利用

  • 即使存在强先验,也鼓励探索替代案例
  • 减轻对早期经验的过拟合
  • 实现对分布外场景的鲁棒适应

记忆感知组件

  • 根据当前任务与过去轨迹的学习语义相似度加权案例选择
  • 允许精确重新应用多步推理模式和工具调用序列
个性化智能层

受并发工作启发但超越之,Dingtalk-DeepResearch扩展这一记忆驱动范式到更广泛的个性化:

  • 整合每个用户的长期结构化记忆:用户画像、文档交互历史、先前智能体工作流
  • 记忆并非静态——通过持续使用不断增长和完善
  • 逐步建立对用户工作风格、领域偏好和重复信息需求的更深理解
  • 使用越多,越智能——提供越来越相关、高效和个性化的协助

3.3 结构感知的异构表格处理

在企业文档中,表格推理面临文本叙述与半结构化或复杂表格混合的挑战。Dingtalk-DeepResearch通过布局感知建模与异构检索-执行相结合的统一工作流来解决。

数据摄入
  • 保留原始布局:解析成分层表示,捕获表头、合并单元格、嵌套子表和包含关系
  • 双存储方法
  • 关系数据库存储标准化模式
  • 文本知识库添加Markdown渲染
  • 模式-片段映射确保每个文本片段锚定到源表
结构解析
  • 多模态检测器:区分表头与内容单元格(如"A级"vs"A部门")
  • 列类型推断:识别离散型、连续型、非结构化,指导后续过滤和推理
  • 布局模式分析:识别嵌入的正交子表
  • 丰富的模式注释为精确的结构感知推理奠定基础
语义理解
  • 上下文感知分解:将用户问题分解为模态特定的子查询
  • 模式对齐:通过嵌入相似度和类型感知标记,将查询术语与数据库模式和文本实体对齐
  • 表格相关子查询作为不可分割单元直接进行符号执行
  • 文本导向子查询路由到文档检索器
表格推理
  • NL2SQL生成:针对表格子查询,选择性调用SQL执行
  • 评估驱动优化:DingAutoEvaluator持续暴露真实和基准工作负载中的低准确率或失败案例
  • 定向再训练:这些案例被分析并反馈到专门的训练循环,以再训练NL2SQL生成器
  • 目标改进:针对模式链接鲁棒性、复杂连接组合和执行可靠性
  • 交叉验证:SQL输出与文本检索证据交叉验证,协调差异后综合最终答案
表格检索
  • 混合自顶向下/自底向上策略
  • 自顶向下:从查询中明确提及的表头开始,缩小到相关单元格区域
  • 自底向上:从显著的主体值开始,追溯到相关表头和属性
  • 两阶段检索
  1. 从文本知识库和Markdown渲染表格进行密集向量召回
  2. 使用模式感知相关性建模进行语义重排序

四、DingAutoEvaluator:数据飞轮与持续优化

4.1 评估驱动的开发范式

DingAutoEvaluator是一个自动化评估平台,作为数据飞轮和性能演化的核心驱动力,将开发范式从启发式迭代和零星人工检查转变为完全评估驱动的方法论

4.2 不确定性校准的案例挖掘

核心策略

  • 在检索和生成层估计生成器模型的不确定性
  • 持续监测认知不确定性峰值——这是模型在其能力边缘推理的信号
  • 这些"灰色地带"输出自动呈现给专家标注员
  • 为高价值监督创建优先通道

4.3 多维度评估指标体系

DingAutoEvaluator配备了多个精心策划的教师模型,基于一系列指标全面检查Dingtalk-DeepResearch框架的输出内容:

4.4 闭环优化机制

这些指标构成了一个统一的测量框架,涵盖检索、生成、端到端LLM性能、推理质量、智能体编排和知识库健康度。每个指标都被选中以捕获Dingtalk-DeepResearch多智能体和文档智能工作流的关键方面。

关键作用

  • 离线基准测试
  • 在线监控循环中的实时信号
  • 为数据飞轮提供高价值案例
  • 为奖励建模提供信号
  • 持续优化
  • 保护整个管道所有阶段免受性能退化

五、实验效果:业界领先的性能表现

5.1 Deep Research Benchmark表现

在Deep Research Benchmark上,Dingtalk-DeepResearch取得了49.71分的最高分数,显著超越竞争对手:

  • 相比第二名提升约1.2分
  • 相比Claude Opus 4高出约13.5分
  • 相比GPT-4o高出约6.3分
  • 展现出在深度研究任务上的全面优势

5.2 ResearcherBench覆盖率

在ResearcherBench的整体覆盖率指标上,Dingtalk-DeepResearch达到了0.7032的平均覆盖率:

  • 显著高于Claude Sonnet和Perplexity Pro(约0.44-0.48)
  • 表明在信息覆盖全面性上的优势
  • 验证了多源异构数据整合能力

5.3 实际部署验证

论文强调该系统已经:

  • 在生产环境中验证:展现持续的准确性、结构质量和用户对齐提升
  • 已在企业工作流中运营:支持关键的文档智能工作流
  • 即将作为服务推出:将在钉钉内提供服务,供更广泛的实际体验

六、评估驱动的企业级智能新范式

总结下来,这篇工作主要有以下特点:

  1. 统一的多智能体架构
  • 将深度研究生成、异构表格推理和多模态报告综合统一到一个框架
  • 三层设计(Agent Studio、Core、Data Layer)实现模块化和可扩展性
  1. 大规模多阶段强化学习
  • 从奖励建模、结构化SFT、静态RL、实时RL到在线DPO的完整训练流程
  • 80万标注样本和10,000时间敏感查询确保质量
  1. 熵引导的自适应学习
  • 无需重训LLM即可持续适应演化任务
  • 记忆感知的案例检索平衡探索与利用
  • 个性化历史智能层越用越智能
  1. 结构感知的表格推理
  • 保留布局的双存储策略
  • NL2SQL生成与评估驱动的迭代优化
  • 混合检索与符号执行相结合
  1. DingAutoEvaluator数据飞轮
  • 不确定性校准的高价值案例挖掘
  • 覆盖RAG、LLM、推理、智能体、知识库的多维度指标体系
  • 形成评估-训练-优化的完整闭环

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值