DeepSeek凭借其透明、可操作性强的发布与开源模式,成为了全球AI模型开源的最佳实践案例之一。Hugging Face本次对OpenAI Deep Reasearch的复现,也正是顺应了DeepSeek掀起的开源热潮。这一趋势有望让前沿AI模型的技术进步惠及更广大的研究群体。

文章目录
OpenAI Deep Research是什么?
Deep Research 智能代理工具,它能够通过推理和综合分析大量在线信息,帮助用户完成多步骤的研究任务。
1. 核心功能:智能代理(Agent)
- 智能代理:Deep Research 是一个基于人工智能的代理工具,能够自主执行任务,类似于一个虚拟助手。
- 推理能力:它具备逻辑推理能力,能够分析复杂问题并生成合理的解决方案,而不仅仅是简单的信息检索。
2. 核心能力:综合大量在线信息
- 信息综合:Deep Research 能够从互联网上抓取、整合和分析大量信息,帮助用户快速获取所需的知识。
- 多源数据:它可能整合来自不同来源的数据,如学术论文、新闻文章、数据库等,确保信息的全面性和准确性。
3. 核心任务:完成多步骤研究任务
- 多步骤任务:Deep Research 不仅限于简单查询,还能处理复杂的多步骤任务。例如:
- 第一步:确定研究问题。
- 第二步:收集相关数据。
- 第三步:分析数据并生成报告。
- 自动化流程:用户只需提供初始指令,Deep Research 可以自动完成后续步骤,节省用户时间。
4. 用户群体:Pro、Plus 和 Team 用户
- Pro 用户:目前该功能已向 Pro 用户开放,可能是高级用户或企业用户。
- Plus 和 Team 用户:未来将逐步向 Plus 和 Team 用户开放,覆盖更广泛的用户群体。
- 分层服务:不同用户群体可能享有不同的功能权限或服务级别。
5. 应用场景
- 学术研究:帮助研究人员快速查找文献、分析数据并生成报告。
- 商业分析:为企业提供市场调研、竞争分析等服务。
- 个人学习:帮助用户快速获取知识,完成复杂的学习任务。
6. 技术实现
- 大语言模型:Deep Research 可能基于类似 GPT-4 的大型语言模型,具备强大的自然语言理解和生成能力。
- 多模态能力:它可能支持文本、图像、表格等多种数据类型的处理。
- 实时更新:能够访问最新的在线信息,确保数据的时效性。
7. 优势与价值
- 高效性:自动化处理复杂任务,大幅提升效率。
- 准确性:通过推理和综合分析,提供高质量的结果。
- 易用性:用户无需具备专业知识,只需提供简单指令即可完成任务。
总结
Deep Research 是一个功能强大的智能代理工具,能够通过推理和综合分析大量在线信息,帮助用户完成复杂的多步骤研究任务。它目前面向 Pro 用户开放,未来将逐步扩展到 Plus 和 Team 用户,适用于学术研究、商业分析和个人学习等多种场景。
OpenAI Deep Research 被复现“开源”
2月8日消息,24小时极速复现OpenAI Deep Research,还免费提供,这是开源AI社区Hugging Face做出的新贡献——一款开源的AI研究agent,不仅能胜任整理信息写报告的复杂任务,而且仅开放一天就在严苛的通用AI助手基准测试中达到55%的准确率(OpenAI原功能是67%)。
DeepSeek-R1在海外的现象级爆火,加速OpenAI推出免费的o3-mini、Deep Research等新模型与功能。然而,DeepSeek开源策略掀起的前沿模型复现潮,让广大网友已经不满足于OpenAI的闭源系统,而是希望用更低成本的开源系统实现同样的效果。
OpenAI的Deep Research能进行多步骤自主研究、信息深度整合以及复杂任务的处理,OpenAI在博客中透露,Deep Research由一个大模型和一个内部Agent框架组成。
复现时,Hugging Face团队基于微软的开源Agent系统,并用代码Agent框架进行优化,让Agent用代码来规划、表达其行动,这对提升系统表现的作用显著。
该团队还提出,未来可通过增加支持的文件格式数量、提出对文件进行更细粒度处理的建议以及使用基于视觉的网络浏览器,来进一步提升系统表现。
项目链接:https://huggingface.co/blog/open-deep-research
试用链接:https://m-ric-open-deep-research.hf.space/
“复现”技术
增加代码Agent框架
Hugging Face团队本次复现OpenAI Deep Research的核心任务便是Agent框架的搭建。Agent框架是大模型上一层的架构,用于指导大模型进行浏览网页、阅读PDF等操作,并且按照一系列步骤组织上述操作。
将大模型整合进Agent框架可显著提升性能表现。在多项基准测试中,仅需使用基础的开源通用Agent架构smolagents库,就能将几款最近发布的前沿模型的表现提升至高60分。

实际上,OpenAI也在发布Deep Research功能的博客文章中强调,在知识密集型的高难度基准测试“Humanity’s Last Exam”中,Deep Research的表现要明显好于独立运行的大模型。
在复现Deep Research功能时,Hugging Face团队主要采用代码Agent来提升传统Agent架构的表现。先前研究显示,让Agent用代码来规划、表达其行动具有4个优势,尤其是在表达复杂的行动序列时。
优势1:代码比json简洁
在下方案例中,用代码来表示行动比JSON要简洁许多。这一序列需要运行4个并行流,每个流包含5个连续行动。在JSON中,你需要生成20个JSON块,每个块在单独的步骤中;而若用代码表示,只需1个步骤。
平均而言,论文显示代码行动比JSON少30%的步骤,这意味着生成的token也相应减少。由于大模型调用通常是Agent系统的主要成本,这意味着Agent系统的运行成本降低了约30%。

研究来源:Paper page - Executable Code Actions Elicit Better LLM Agents
优势2:重复利用库工具
用代码来表示行动还能更方便地再利用常见库中的工具。这个很好理解
优势3:大模型更加认识“代码”
这种系统在基准测试中的表现更好,因为大模型在训练时广泛接触了代码数据,这种行动表达方式对它们来说更为直观。
优势4:更好的状态处理能力
更好的状态处理能力:在多模态任务中,如果需要存储图像、音频等内容后续使用,只需将其作为变量分配给状态。但在JSON中,必须让大模型在字典键中命名它,大模型后续能否理解和使用也还是未知数。
配备两个工具集
同时,Agent系统需要配备正确的工具集,Hugging Face的复现团队使用了微软研究院现成的的Magentic-One Agent,试图用最低的复杂性获得最高的性能。工具集中包含2个工具:
1、一个网络浏览器。虽然像Operator这样的完整网络浏览器交互需要达到全性能,但Hugging Face团队目前先使用了一个简单的基于文本的网络浏览器,作为概念验证。
2、一个简单的文本检查器,能够读取大量文本文件格式。
远超开源SOTA系统,46%–>55%,且还有提升空间
为测试上述系统的性能,Hugging Face团队使用了GAIA这一全面且难度较高的Agent测试基准,涉及许多基于大语言模型的挑战。
下方是一个测试集中的难题:
“在2008年的画作《乌兹别克斯坦刺绣》中展示的水果,哪些被用作1949年10月邮轮早餐菜单的一部分,该邮轮后来被用作电影《最后的航行》的浮动道具?请以逗号分隔列出这些水果,按照画作中从12点位置开始按顺时针方向排列的水果顺序,使用每个水果的复数形式。”
此类问题对Agent系统提出了多个挑战:识别水果需要用到多模态能力;搜集信息时需要理解信息间的相互依赖关系;输出回答时需要按照指定的格式。此外,系统还需将问题解决的轨迹按正确顺序串联起来。
解决此问题需要高级规划能力和严格的执行,这两个领域在使用时单独使用大模型时会遇到很多困难。
在GAIA的公共排行榜上,GPT-4在没有任何Agent设置的情况下,连7%的验证集分数都达不到。但通过Deep Research,OpenAI在验证集上达到了67.36%的分数,提升了一个数量级。

在Hugging Face 24小时的复现尝试中,代码Agent的使用对系统的整体表现提升明显。之前,Magentic-One是GIGA测试中表现最佳的开源系统,Hugging Face团队将其表现从46%提升至55.15%,这种性能提升主要归功于让Agent以代码的形式编写其动作。
当切换到以JSON而不是代码编写动作的标准Agent时,相同设置的验证集性能会立即下降到33%左右。
Hugging Face团队认为,未来此类系统还可以从三方面进行改进:
- 1、扩展可读取的文件格式数量。
- 2、提出对文件进行更细粒度处理的建议。
- 3、替换为基于视觉的网页浏览器(开源地址)。
项目地址和试用地址
项目链接:https://huggingface.co/blog/open-deep-research
试用链接:https://m-ric-open-deep-research.hf.space/
1471

被折叠的 条评论
为什么被折叠?



