上海AI实验室FlowSearch刷新深度研究新纪录,结构化知识流大幅提升模型性能

上海人工智能实验室,打造了一个AI智能体深度研究系统FlowSearch。

在GAIA、GPQA和HLE基准测试中取得了领先性能,其表现优于具有竞争力的智能体工作流方法(OpenAI-DeepResearch、MiroFlow、Manus、OWL)以及基于大语言模型(LLM)的方法(GPT-5、Intern-S1、DeepSeek-R1)。

深度研究需要能想得开,又能钻得深。一个好的研究者,脑子里装的是一张巨大的、不断生长的网。每一个知识点,每一个子问题,都像网上的一个节点,彼此之间有千丝万缕的联系。你要能同时在几个不同的分支上探索,又要能及时地把一个分支的发现,反馈给另一个分支,甚至根据新线索调整整个研究的大方向。

大多数人工智能处理复杂问题,都是把一个大任务拆解成一串线性的小任务,像流水线一样,按顺序一个个执行下去。这种方式处理一些流程固定的事儿没问题。可面对真正的科学研究,这种线性思维的弊病就暴露无遗了。

真实的研究过程,充满了不确定性和非线性的依赖关系。你可能需要先收集A和B两种材料,才能开始C实验。同时,你还得去查阅D文献,看看有没有人做过类似的工作。C实验的结果,可能会让你回头去重新审视A材料的特性,甚至完全推翻之前的假设,开辟一个全新的研究方向E。

这种复杂的、动态调整的、多线程并行的工作流,是传统线性AI智能体无法驾驭的。它们就像只有一个CPU的计算机,一次只能想一件事,前一步的输出简单地交给后一步,中间宝贵的见解和证据,很容易就在这个单向传递链条中被稀释、遗忘了。

FlowSearch要解决的,就是这个问题。

AI做科研不再是一条路走到黑

FlowSearch的核心叫做“动态结构化知识流”。

它放弃了“待办事项清单”式的线性思维,转而用一种更高级的工具来组织研究过程,那就是“有向无环图”(Directed Acyclic Graph, DAG)。

你可以把它想象成一张思维导图。

整个研究任务就像是这张思维导图的中心主题。围绕这个主题,AI会不断地生长出新的分支节点。每个节点都是一个具体的子任务,比如“搜索一篇文献”、“解决一个方程式”、“回答一个子问题”。节点之间用箭头连接起来,表示它们之间的依赖关系。箭头“A→B”的意思是,必须先完成A任务,才能开始B任务。

这种图状的结构,天然就比线性列表强大得多。

它能清晰地展现出任务之间复杂的依赖关系。哪些任务是上下游,哪些任务可以并行处理,一目了然。比如,在研究一个课题时,搜集背景资料和设计实验方案这两个任务,可能并没有绝对的先后顺序,完全可以同时进行。在图结构里,它们就是两个并行的分支,可以交给两个不同的AI智能体去分头执行,大大提高了效率。

FlowSearch系统里,有三个核心角色,像一个配合默契的研究小组。

第一个角色叫“知识流规划器”(Knowledge Flow Planner)。它就是这个小组的组长,负责绘制最初的那张思维导图。它会审视最初的研究问题,把它分解成几个关键的子任务节点,并规划出它们之间的依赖关系,形成一个初始的知识流图。这个规划器不是一次性就把图画完,而是迭代式地、一步步地扩展。它会不断检查图里的节点,看看哪个节点还需要进一步分解,或者需要更多的信息支持,然后相应地添加新的子节点和连接。

上海人工智能实验室的研究团队为了训练这个规划器,专门准备了一个包含1万个案例的数据集,把它培养成一个规划高手,取名InternPlanner。

第二个角色是“知识收集器”(Knowledge Collector)。它们是小组里的执行者,是真正干活的“研究员”。知识收集器会盯着那张不断变化的思维导图,找出所有“前置任务”都已完成、可以立即执行的节点,然后把这些节点分配给不同的执行器智能体去处理。这些智能体个个身怀绝技,配备了各种工具,比如网页浏览、文件下载、视觉问答等等,它们会调用这些工具,去完成节点里指定的子任务。任务完成后,它们会把结果——无论是搜集到的信息,还是推理出的结论——进行提炼总结,附着在这个节点上,供后续依赖它的节点使用。

第三个角色是“知识流优化器”(Knowledge Flow Refiner)。它是小组里的“复盘专家”或“情报分析师”。在一批节点被执行完,有了新的结果和知识之后,优化器就会登场。它会审视整个知识流图的现状,结合新获得的信息,对图的结构进行动态调整。它就像一个经验丰富的老教授,会根据研究的进展,指出“这个方向可能走不通,可以砍掉”、“这里发现了一个新的联系,应该建立一条新的依赖边”、“这个子问题的提法不太对,需要修改一下”。

它手里有六件修改工具:增加节点、删除节点、修改节点、增加边、删除边、修改边。通过这些操作,优化器能实时地修剪、扩展和重塑知识流,确保整个研究过程始终朝着最有效、最合理的方向前进。

这三个角色协同作战,构成了一个完整的“规划-执行-反馈-优化”的闭环。整个研究过程不再是僵化的线性推进,而是一个知识流图不断生长、演化、自我完善的动态过程。这种方式,才更接近人类顶尖科学家的思考和工作方式。

它用实力证明了结构的重要性

FlowSearch在一系列公认的高难度基准测试中,交出了一份令人印象深刻的成绩单。

GAIA(通用AI助手)基准,它的问题对人类来说可能很简单,但对AI却是出了名的难。FlowSearch(基于o4-mini模型)在这个测试上,把平均准确率一举提升到了76.96%。

GPQA(研究生水平)基准,是一个专门用来测试模型深度推理和专业知识的平台,题目由领域专家编写,确保你用简单的搜索引擎找不到答案。在其中难度最高的GPQA-diamond子集上,FlowSearch(o4-mini)在生物、化学、物理三个领域的平均准确率达到了87.37%,这个成绩甚至超过了GPT-5(85.35%)。

HLE(人类最后的大考)基准,是一个涵盖数学、人文、自然科学的多模态测试,由主题专家开发,代表了学术能力的前沿水平,目前最强的LLM在这里的表现也远不及人类专家。在这个硬骨头上,FlowSearch(o4-mini)再次拔得头筹,取得了30.80%的准确率,超过了OpenAI DR(26.60%)和Gemini Deep Research(26.90%)这些来自顶级科技公司的闭源系统。

在更垂直的生物医药领域,TRQA(治疗靶点发现问答)基准上,FlowSearch作为一个通用智能体,凭借其强大的结构化工作流,取得了77.9%的成绩,甚至超过了像Origene(60.1%)这样专门为该领域设计的AI智能体。

一个优秀的框架,远比单纯堆砌一个更大的基础模型更重要。

以o4-mini这个模型为例,当它自己单打独斗,没有智能体框架加持时,在GAIA上的得分只有16.97%。可一旦套上了FlowSearch这个“外骨骼”,它的分数立刻飙升到76.96%。这中间近60个百分点的巨大差距,几乎完全是FlowSearch这个结构化框架带来的。

这证明了,让AI学会如何思考、如何规划、如何协作,比单纯让它“知道”更多东西,对解决复杂问题的帮助要大得多。

参考资料:

https://arxiv.org/abs/2510.08521

https://github.com/Alpha-Innovator/InternAgent

https://alpha-innovator.github.io/InternAgent-project-page/

https://huggingface.co/U4R/InternAgent

END

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值