突破Claude-4编程上限，清华大学自进化Agent框架拿下新SOTA，底模越好性能越高，已开源

最新推荐文章于 2025-12-09 20:01:58 发布

原创

最新推荐文章于 2025-12-09 20:01:58 发布 · 1.2k 阅读

·

36

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #Agent

内容源自公主号计算机科研圈

突破多步推理瓶颈，让Claude-3.7-Sonnet解题成功率暴增20.6%。

在SWE-Bench Verified上刷新开源框架SOTA！

中科院、清华大学、阶跃星辰等提出SE-Agent，一个创新的自进化（Self-Evolution）框架。

它不再满足于简单地“多想几次”，而是让智能体学会系统性地修订、重组与精炼其整个思考过程，通过多轨迹间的相互启发与对抗，探索更广阔、更多样化的解决方案空间。

随着Claude 4模型的发布，SE-Agent的性能被推向新的高度：在SWE-Bench Verify上，它取得了高达80%的Top-1 Resolution Rate，再次刷新了领域纪录。

这充分证明该框架可以随着基础模型升级而不断进步。

核心思想：从“独立尝试”到“集体进化”

大语言模型（LLM）驱动的智能体在处理复杂推理和工具使用方面展现了惊人的潜力，尤其是在软件工程等需要多步骤交互的任务上。然而，现有方法（如蒙特卡洛树搜索 MCTS）常常陷入困境：它们将每次的解决尝试（即“轨迹”）视为独立事件，忽视了不同解决方案路径之间的内在联系，导致思维固化，难以跳出局部最优解。

通俗来说，传统智能体就像一群各自为战的士兵，虽然人数众多，但缺乏协同。SE-Agent则引入了“进化”的视角，将每一次解决问题的完整路径（轨迹）视为一个“物种”，通过三大核心操作，让这些“物种”在一个“生态系统”中迭代进化，优胜劣汰。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。