内容源自公主号计算机科研圈
突破多步推理瓶颈,让Claude-3.7-Sonnet解题成功率暴增20.6%。
在SWE-Bench Verified上刷新开源框架SOTA!
中科院、清华大学、阶跃星辰等提出SE-Agent,一个创新的自进化(Self-Evolution)框架。
它不再满足于简单地“多想几次”,而是让智能体学会系统性地修订、重组与精炼其整个思考过程,通过多轨迹间的相互启发与对抗,探索更广阔、更多样化的解决方案空间。
随着Claude 4模型的发布,SE-Agent的性能被推向新的高度:在SWE-Bench Verify上,它取得了高达80%的Top-1 Resolution Rate,再次刷新了领域纪录。
这充分证明该框架可以随着基础模型升级而不断进步。

核心思想:从“独立尝试”到“集体进化”
大语言模型(LLM)驱动的智能体在处理复杂推理和工具使用方面展现了惊人的潜力,尤其是在软件工程等需要多步骤交互的任务上。然而,现有方法(如蒙特卡洛树搜索 MCTS)常常陷入困境:它们将每次的解决尝试(即“轨迹”)视为独立事件,忽视了不同解决方案路径之间的内在联系,导致思维固化,难以跳出局部最优解。
通俗来说,传统智能体就像一群各自为战的士兵,虽然人数众多,但缺乏协同。SE-Agent则引入了“进化”的视角,将每一次解决问题的完整路径(轨迹)视为一个“物种”,通过三大核心操作,让这些“物种”在一个“生态系统”中迭代进化,优胜劣汰。

最低0.47元/天 解锁文章
3944

被折叠的 条评论
为什么被折叠?



