突破Claude-4编程上限,清华大学自进化Agent框架拿下新SOTA,底模越好性能越高,已开源

内容源自公主号计算机科研圈

突破多步推理瓶颈,让Claude-3.7-Sonnet解题成功率暴增20.6%。

在SWE-Bench Verified上刷新开源框架SOTA!

中科院、清华大学、阶跃星辰等提出SE-Agent,一个创新的自进化(Self-Evolution)框架。

它不再满足于简单地“多想几次”,而是让智能体学会系统性地修订、重组与精炼其整个思考过程,通过多轨迹间的相互启发与对抗,探索更广阔、更多样化的解决方案空间。

随着Claude 4模型的发布,SE-Agent的性能被推向新的高度:在SWE-Bench Verify上,它取得了高达80%的Top-1 Resolution Rate,再次刷新了领域纪录

这充分证明该框架可以随着基础模型升级而不断进步。

图片

核心思想:从“独立尝试”到“集体进化”

大语言模型(LLM)驱动的智能体在处理复杂推理和工具使用方面展现了惊人的潜力,尤其是在软件工程等需要多步骤交互的任务上。然而,现有方法(如蒙特卡洛树搜索 MCTS)常常陷入困境:它们将每次的解决尝试(即“轨迹”)视为独立事件,忽视了不同解决方案路径之间的内在联系,导致思维固化,难以跳出局部最优解。

通俗来说,传统智能体就像一群各自为战的士兵,虽然人数众多,但缺乏协同。SE-Agent则引入了“进化”的视角,将每一次解决问题的完整路径(轨迹)视为一个“物种”,通过三大核心操作,让这些“物种”在一个“生态系统”中迭代进化,优胜劣汰。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值