SWE-Agent 这是针对本地模型的新人工智能一个开源项目

最新推荐文章于 2025-08-14 17:11:16 发布

原创

最新推荐文章于 2025-08-14 17:11:16 发布 · 3.1k 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文探讨了一种名为SWE-agent的工具，通过设计ACI使语言模型如GPT-4能够高效地修复GitHub项目中的问题，展示了其在SWE-bench上的性能和应用过程。

完全自主的编码代理，可以解决 GitHub 问题。它在编码基准测试中的得分几乎与 Devin 一样高。这是完整的评论和教程。

SWE-agent 将 LM（例如 GPT-4）转变为软件工程代理，可以修复真实 GitHub 存储库中的错误和问题。

🎉 在完整的 SWE-bench 测试集上，SWE-agent 修复了 12.29% 的问题，这是完整测试集上最新的结果。

我们通过设计简单的以 LM 为中心的命令和专门构建的输入和输出格式来实现这些结果，使 LM 更容易浏览存储库、查看、编辑和执行代码文件。我们将此称为代理计算机接口 (ACI)，并构建 SWE 代理存储库，以便轻松迭代存储库级编码代理的 ACI 设计。

Agent-Computer Interface 代理计算机接口 (ACI)

我们通过设计简单的以 LM 为中心的命令和反馈格式来实现这些结果，使 LM 更容易浏览存储库、查看、编辑和执行代码文件。我们将其称为代理计算机接口 (ACI)，并构建 SWE 代理存储库，以便轻松迭代存储库级编码代理的 ACI 设计。

就像典型的语言模型需要良好的提示工程一样，良好的 ACI 设计在使用代理时会带来更好的结果。正如我们在论文中所示，没有经过良好调整的 ACI 的基线代理的表现比 SWE 代理差得多。

SWE-agent 包含我们发现在代理-计算机界面设计过程中非常有用的功能：

我们添加了一个在发出编辑命令时运行的 linter，并且如果代码语法不正确，则不会让编辑命令通过。
我们为代理提供了一个专门构建的文件查看器，而不仅仅是 cat 文件。我们发现此文件查看器在每轮仅显示 100 行时效果最佳。我们构建的文件编辑器具有用于上下滚动以及在文件中执行搜索的命令。
我们为代理提供了专门构建的全目录字符串搜索命令。我们发现该工具简洁地列出匹配项非常重要 -

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。