AI 编码新王炸,Augment (SWE-bench 冠军)免费登场,专治复杂大项目,硬刚 Cursor?

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

AI 圈又来了个新玩家Augment Code,专治大项目、复杂代码库。提供 200K 上下文 token、持久化内存和深度工具集成,可在 VS Code 和 JetBrains、Vim中使用。它是SWE-bench Verified 排行榜上排名第一的代理,汇集了 Claude Sonnet 3.7 和 O1 的最佳功能。Augment 刚出来,立马有人拿它跟 Cline、Cursor 这些比,还有人刚从 VS Code 换到 Cursor,又来了个新的,直呼 “太快了跟不上”。Tips:本文介绍产品功能、技术理念、实战体验、AI编码实践,信息量有点大。
Augment Code 自称是第一个能深度理解大型复杂项目、专为团队协作打造的 AI 编码平台, 今天正式亮相,号称能适应你的代码上下文,给团队生产力上 Buff。

官方喊话了:“ 免费来试试,把你最大最复杂的代码库丢过来,看我们搞不搞得定。(augmentcode.com)。” 

创始人 Scott Dietzen 表示,Webflow、Kong、Pigment 这些公司已经在用了。

Augment 官方在博客中写到:AI正在改变我们编写代码的方式,而且变化很快。AI现在可以创建简单的应用程序、解释代码块并发现程序中的错误。但专业开发人员不会从事小型项目或代码片段的工作。现实世界中的软件开发涉及:接手没文档的屎山、用别人写的奇葩 API、搞不清依赖就得硬着头皮迁移、重构牵一发动全身的代码包…… 到目前为止,还没有 AI 编码平台专门针对软件工程团队在处理大型复杂代码库上解决这些痛点。

这 Agent 要干啥?不只是写代码,而是帮你搞定整个开发流程。

专为在实际系统中工作的工程师打造: - 多文件编辑 - 完整 PR 创建 - 终端命令和代码执行 - 上下文感知文档和测试代理不只是建议代码。它编写码、运行代码并记录每一步。

终端/执行权限 get:直接指挥终端、运行代码,能力边界大扩展。

智能文档/测试:结合项目背景,生成靠谱的文档和测试用例。

全程 Live Show:写、跑、记,每一步操作都透明可见。

集成开发工作流 (Integrated Dev Workflows)从接活 (ticket) 到交差 (PR),一条龙服务,不用换工具:

  • 连 GitHub 做分支、提交、发 PR。
  • 连 Linear 发现和解决 issue。
  • 连 Notion、JIRA、Confluence 把文档需求变成代码。AI 真正融入了你的日常工作流。


Agent 的几大亮点:

Augment 的核心武器:吃透你的代码库。每个功能都自带 上下文感知。给你的建议、补全、互动,全都贴着你的代码库来——组件、API、编码风格,它门儿清。能扛住大项目, 连 Unreal Engine、Chromium 这种级别的代码库都能搞定。“团队最大的痛点就是搞懂代码库的每个部分怎么运作、怎么组合。Augment Code 无缝集成,建议直观,团队效率和幸福感飙升。跟试过的其他编程助手比,这玩意儿是团队上手最快的。”— Chintan Shah, Collective 工程副总裁初创、大厂都在用。Collective 工程 VP 现身说法:搞懂全局代码库痛点被解决,团队效率、幸福感双提升,是上手最快的 AI 助手。

持久记忆 (Persistent Memory) 这 Agent 越用越懂你:

  • 它会学你的代码风格。
  • 你上次怎么重构的,它记得。
  • 你公司的基建和规范,它能适应。关键是记忆能累积,不用每次开工都像教新人一样重新说一遍。

关于持久记忆你可以看对话框这个位置。

无需查看指南、询问同事或提交帮助请求即可快速获得答案。聊天可以帮助你快速前进。

这个Agent使复杂的更改变得简单,例如重构代码:它还具有更高级别的可视化调试功能: 
  • 截图拖进去,Agent 自动诊断 (CSS/布局/逻辑)。
  • 精准修复 + 只跑相关测试 = 效率起飞!
  • 调试变简单:拖拽、修复、确认,三步搞定。
Augment 开源打榜SWE-benc的经验指南SWE-bench Verified 排行榜上,结合 Claude Sonnet 3.7 和 o1,Augment Agent 以65.4%的成绩拿了第一。代码质量排行榜第一:

先科普下:SWE-bench 这玩意儿到底测啥?

跟 LeetCode 刷题不一样,它模拟的是真实世界的软件工程:从 GitHub issues 里找真实 bug,扔给你一个代码库(依赖都装好了),让你自己搞定。

你得自己找测试用例,自己写脚本复现问题,自己定位、修改代码,还得保证不破坏原有功能。这比单纯写算法要复杂得多,更考验 Agent 的综合能力。

以前的文章也有聊过:



Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万!

当然,没哪个基准是完美的,SWE-bench 也有它的局限:

  • 偏科严重: 更侧重修小 bug,而不是搞新功能。
  • 提示词太“友好”: 任务描述比开发者实际提问清晰多了。
  • Python 独大:忽略了 Java、C++ 等其他语言的复杂性(比如 Python 的报错信息通常更友好)。
  • “小打小闹”: 代码库规模比生产环境小几个数量级。
  • 不够“硬核”: 大部分问题有经验的人类工程师一小时内就能解决。

更重要的是,真实软件工程里的协作、迭代、各种第三方工具集成 (Linear, Jira, Notion, Slack 等)、卡壳时问开发者、根据反馈自我学习… 这些 Augment 产品里下了功夫的地方,SWE-bench (目前) 都测不到。 (比如 Augment 最近还搞了个 AugmentQA benchmark,专门测代码库感知的检索能力)。

Augment 从这次“屠榜”悟到了啥?

  • 基础模型是爹: 模型本身的能力决定了上限。
  • 调 Prompt 有用,但很快到顶。
  • 集成 (Ensembling) 能提分 (3-8%),但不稳定且太烧钱, 实际产品里玩不起。
  • Benchmark ≠ 产品体验: grep/find 在 SWE-bench 里导航够用,但真实复杂代码库和模糊需求下就吃力。很多能提升用户体验的改进,在 SWE-bench 上根本体现不出来。

所以,Augment 的结论很明确:作为应用层 AI 编程公司,死磕 Benchmark 不如死磕产品体验。正道是利用微调开源模型和强化学习,把 Agent 搞得又快又便宜。只有这样才能真正解锁新的 AI 编程范式,而不是在 Benchmark 上自嗨。 未来他们会在这方面有更多动作。

技术细节控看这里 (Deep Dive 摘要):

  • 最终方案是 Claude Sonnet 3.7 + o1 的组合拳。
  • 借鉴了 Anthropic 的架构,但自己搞定了他们没公开的“规划”工具 (用的是 sequential_thinking tool)。
  • 试了各种花活:智能粘贴、改进 bash 工具、加 embedding 检索… 发现对 SWE-bench 分数提升有限 (但强调 embedding 对实际产品体验至关重要)。
  • 把任务拆分成多个 Agent (比如先定位测试,再专门修复回归 bug) 的尝试,效果不佳,甚至会引入新 bug。
  • 集成 (Ensembling) 就用了简单的 O1 投票选最优解,复杂的不搞,因为太贵。
  • (他们还贴了具体的启动 Prompt 指令,感兴趣可以去原文看。)
  • https://www.augmentcode.com/blog/1-open-source-agent-on-swe-bench-verified-by-combining-claude-3-7-and-o1
总之,Augment 这次不仅在 SWE-bench 开源榜单上秀了把肌肉,还把怎么打榜的方法直接开源了:https://github.com/augmentcode/augment-swebench-agent不过他们也明说了,Benchmark 是 Benchmark,产品是产品。下一步的重点是用自家数据和强化学习微调模型,在保持差不多的榜单分数下,把 Agent 的速度提上去、成本降下来。这才是他们认为的未来。

使用Augment氛围搭建Docusaurus文档网站

我想使用它来氛围编码一下。我用Deepseek比较了一下开源文档框架:决定选择Docusaurus:Meta维护的文档框架,支持React和MDX,内置版本控制、搜索、国际化功能,社区生态完善下面开始氛围编码:拿个喇叭,只管提需求,不管看代码。Docusaurus 这个文档怎么启动,怎么配置,都懒得看。直接把文档链接丢给Augment。按着项目文档安装完执行完操作之后,启动项目会自动带你跳转到浏览器,一轮下来基础的框架已经部署好了:他让我继续执行操作,我选择第1步添加更多文档:我告诉他我希望能够将已有的公众号文章 HTML 文档直接加载到 Docusaurus 网站中。他还给了我三种添加HTML的方式,我觉得写得也挺清楚的:在这个过程中,他每一个agent执行的步骤都比较清晰有条理,他这个Agent还是挺智能的。以及后续怎么端到端快捷的添加新的html文件:这是这几步之后的完整演示视频。挺氛围编码的,不用看文档。一个比较脱手Agent 帮你搭建内容站 + 灵活按照自己的需求进行更改: 这小节先到这里,后文还有挺长的其他的要介绍。

怎么玩转 Augment?

就是个 IDE 插件,支持 VS Code 和 JetBrains 全家桶 (IntelliJ, WebStorm, PyCharm 等)。一般用自动Agent模式,还有几点:

  • 聊天 (Chat):对着代码库提问,让它帮忙找 Bug,或者一起构思新功能。我发现他这个模式下也支持mcp的调用。这里尝试的mcp是这个。
  • 代码补全 (Code Completions): 快得飞起。写内部 API、写测试、用第三方 SDK,Tab 键一路按到底就行。
  • 编辑建议 (Suggested Edits):你改了一个地方,它能自动找出整个代码库里其他需要跟着改的地方,并给出建议。有人说靠这个功能,写 PR 几乎就是一路点点点。当然,这个功能cursor和windsurf也有。
  • Slack 机器人: 永远在线的 Slack 机器人回答问题,哪怕队友都下线了。遇到问题 @ 它一下,别浪费开发时间干等。

Augment 是第一个专为 团队 设计的 AI 编程平台。

AI编码最佳实践

Augment Agent 使用经验指南:

Agent 这玩意儿贼强,但也还嫩着呢。想让它乖乖听话、高效干活,得掌握点门道:

啥活儿适合 Agent 干?最好是那些能重复做、范围清楚、能测试、有据可查(比如来自 JIRA 工单或 PR)的任务。像是修 Bug、搞新功能、探索代码、处理 Code Review 意见、搭个新组件的架子,这些都挺合适。

Prompt 怎么写?

别偷懒,信息给足!说得越细,它干得越好。


大任务拆成小目标!别一口气让它干一堆事(❌“读工单、写功能、写测试、更新文档”)。一步步来(✅“1. 先读工单 → 2. 再写菜单 → 3. 然后写测试 → 4. 最后更新文档”)。等它干完一步,再给下一步指令。给它抄作业!让它写测试?顺手扔个写得好的测试文件给它当参考(✅“给 ImageProcessor 写测试,结构参考 text_processor.py 这个文件”)。喂饱上下文!把你项目里的文档、工单、PR 都通过集成喂给 Agent。上下文越足,它越聪明。没头绪?让它先探路!不知道从哪下手?让 Agent 先帮你研究下现有代码,提几个方案出来(✅“需要个新过滤算法,你先看看现在的逻辑,给几个思路我瞅瞅”)。这招出奇地好用。

Agent 跑偏了咋办?

  • 错得离谱:删档重来,开个新会话。
  • 小错不断:耐心点,提示它往回纠正。
  • 终极大招:用检查点功能,一键回到解放前。

我通常建议你和本地的git配合。一个错误解决不了,不要持续的递归迭代解决,而是回溯然后横向的让它重新生成。

啥时候能信它?慢慢来,别急。

先用手动挡(非自动模式)。多问问它问题,看看它懂不懂(比如“我们这儿登录咋实现的?”)。先让它干点简单的修改。用顺手了,自然就信了。

Agent 干活时,你能干啥?

    • 新手:老实看着,点点头批准。
    • 中级:可以摸鱼干点别的。
    • 大神:跟它并肩作战,实时指挥、纠偏。

AI编码最佳实践文档:https://www.augmentcode.com/blog/best-practices-for-using-ai-coding-agents

Augment开炮:AI 模型选择器是失败的设计。

Augment 官方博客中写道:AI 模型选择器是设计失败,不是啥高级功能,AI 编程助手本来是提升效率的,有些工具(暗指Cursor)在模型堆里让用户挑花了眼。

又列举Sam Altman :模型选择器,用户体验就是不行。

关于他说到的这一点,其实现在的Cursor既提供模型选择选项又提供自动模型选择选项,甚至提供自定义agent模式。灵活度方面很高。


最新的模型,不一定就是最好的

很容易觉得,用上最新、最强的模型,效果肯定更好——但现实中 LLM 不是这么玩的。

  • 比如 Sonnet 3.7,挺强,但得仔细调教,不然话太多。
  • GPT-4.5 发布时没啥水花,因为在实际任务里,大家没觉得有啥提升。

根本问题是:LLM 的质量取决于输入质量。 没有正确的上下文,再牛的模型也白搭。

官方表示:” 这就是为啥 Augment 要死磕一个能搞定企业级代码库的 实时上下文引擎 (Context Engine)。它能确保 LLM 在正确的时间拿到正确的上下文,让响应更准、更相关、更有用。

当别人都在卷 UX、列一堆模型让你选的时候,我们的赌注是上下文,不是下拉框。 我们不是搞个简单的本地索引加基础搜索,指望它撞大运找到对的上下文。我们是实打实地构建了一个真正的上下文引擎,它深度理解企业级代码库,动态检索最相关的信息,喂给 LLM 最需要的东西,从而给出高质量、高相关的建议。“

模型选择?交给Augment就行了

Augment 不给你模型选择器,因为 Augment 替你搞定了复杂性。它会根据以下因素动态选择最佳模型:

✅ 任务类型 (代码补全、聊天、行内建议) 

✅ 真实世界编码任务的性能基准

✅ 成本 vs. 延迟的权衡

✅ AI 模型的最新进展

官方表示:" 选哪个 AI 模型,是我们的问题,不是用户的问题。 我们非常严肃地对待这个责任,我们世界级的 AI 研究团队建立了一套广泛的测试和评估标准,确保最佳结果。

每个考虑用于 Augment Code 产品的模型,都要经过严格的“试镜”。这包括外部基准测试 (如 swebench-verified)、广泛的内部试用、与 20 多个全职测试人员进行的 A/B 测试,以及内部基准评估。

模型选择器浪费开发者时间(和钱)

选择的幻觉可能感觉很爽,但实际上增加了摩擦。想象一下,每次 Google 搜索都要先选个搜索算法?或者跑代码前先在 10 个编译器里挑一个?

更坑的是,模型选择器可能带来意外成本。在提供模型选择器的工具里,有些模型用一次就比别的贵很多。这对采用这些工具的组织来说,成本完全不可预测。当最新的模型出来时,你可能面临天价账单,却没有任何保证工程师能从中获益。

用 Augment,你不用担心使用限制或意外费用。不管我们后台给你用了哪个模型,都是无限次使用。 不用切换设置,不用反复猜测,没有隐藏费用——只有最适合当前任务的 AI。

如果你的 AI 编程助手还需要你选模型,那它就没干好自己的活。"

Augment:定价层

早期用户口碑:Webflow 首席工程师:“能回答“未知之未知”的问题,太顶了!”Handoff 经理:“它真懂你的代码库,自动补全完不用删掉一半。”Pigment 经理:“太牛了,问它某个功能在哪实现的,它能把前端、后端、数据库迁移代码都给你指出来。”
光好不好用还不够,安全也得跟上。Augment 拿了 SOC 2 Type II 认证,保证不拿你的代码去训练,还帮你规避 IP 风险。Newfront 的工程总监专门提到他们做了严格的安全评审。效果追踪,管理有数:提供详细使用指标 (采纳率、接受率)。老板们也能看到实打实的数据。后台有详细的使用指标,谁用了,用得好不好,一清二楚。Paystone 的工程 VP 就很看重这个,并点赞到:数据透明,价值可见。
当然Augment Code 现在免费无限制使用——Claude3.7 + o1 以及它的其他微调模型组成的Augment Agent,但免费层的代码是会被训练的,付费层不会:用你的shit  进行训练,难绷。现在暂时的定价是这个样子:官方未来会更新使用定价。以上。One More Thing

本号知识星球(汇集ALL订阅频道合集和其他):

星球里可获取更多AI绘画实践以及其他AI实践:

本号连载过许多MCP的文章,从概念到实践再到自己构建:

MCP是什么:Windsurf Wave3:MCP协议让AI直接读取控制台错误,自动化网页调试不用复制粘贴了!Tab智能跳转、Turbo模式。MCP怎么配置、报错解决:Windows下MCP报错的救星来了,1分钟教你完美解决Cursor配置问题。

MCP实践:

最新MCP托管平台:让Cursor秒变数据库专家,一键对接Github,开发效率暴增!

比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!

2分钟构建自己的MCP服务器,从算数到 Firecrawl MCP(手动挡 + AI档)

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。参考链接:
[1] https://docs.augmentcode.com/

点这里👇关注我,记得标星哦~

<think>好的,我现在要解决用户关于“augment”在编程或数据处理中的使用方法或应用场景的问题。首先,我需要明确用户的具体需求是什么。用户可能指的是数据增强(data augmentation)或者是在编程中扩展功能的方法。根据常见的上下文,“augment”在技术领域通常与数据增强相关,尤其是在机器学习和数据处理中。 接下来,我需要回顾已有的知识。数据增强是一种通过对现有数据进行变换来生成数据的技术,常用于提高模型的泛化能力和防止过拟合。例如,在图像处理中,可以通过旋转、裁剪、调整亮度等方式增强数据。在自然语言处理中,可能会通过同义词替换、句子结构变换等方法生成的文本数据。 然后,我需要确认是否有相关的引用内容可以支持回答。查看用户提供的引用,引用[1]提到PaLM模型在训练时使用了大量的代码数据,这可能涉及到数据预处理,包括数据增强。引用[2]提到数据管理系统如PostgreSQL和MongoDB,这可能与数据处理流程中的存储和管理有关,但和augment的直接关联不大。引用[3]涉及系统分析和解决方案的实施,可能与数据处理的流程设计有关,但同样不直接涉及augment技术。 接下来,我需要组织回答的结构。首先解释augment的基本概念,然后分应用场景和具体方法两部分展开。在应用场景中,可以包括机器学习、数据预处理、功能扩展等。在方法部分,提供代码示例,比如使用Python的库进行图像增强或文本增强。同时,需要确保遵循用户给出的格式要求,如使用$...$和$$...$$,以及生成相关问题。 需要注意的是,用户可能对代码示例特别感兴趣,因此需要提供简洁明了的例子,比如使用Keras的ImageDataGenerator进行图像增强,或者使用nlpaug库进行文本增强。同时,要指出相关库的安装和基本用法,确保用户能够实际操作。 另外,用户可能关心augment的实际效果,比如如何影响模型性能,因此需要提到防止过拟合和提高泛化能力等优点。同时,也要提到可能的注意事项,如数据增强后的标签处理,避免数据泄露等问题。 最后,生成的相关问题需要覆盖不同方面,如应用场景、工具选择、注意事项、性能影响和自动增强技术,帮助用户进一步探索该主题。 在确保回答符合用户的所有格式要求后,还需要检查LaTeX语法是否正确,例如数学表达式是否正确使用$符号包裹,独立公式是否使用$$,代码块是否用正确的标记,以及引用是否正确添加在相关段落末尾。</think>### Augment在编程与数据处理中的应用指南 在编程和数据处理中,**augment**(增强)通常指通过扩展或修改现有数据/功能来提升系统性能或适应需求。以下是其核心应用场景与实现方法。 --- #### 一、应用场景 1. **数据增强(Data Augmentation)** 在机器学习中,通过对训练数据进行变换(如旋转、翻转、噪声添加)生成样本,提高模型泛化能力。例如: $$x_{\text{augmented}} = \text{Transform}(x_{\text{original}})$$ 常见于图像分类任务[^1]。 2. **功能扩展** 在代码开发中,通过继承或组合模式扩展类/模块功能。例如: ```python class BaseProcessor: def process(self): pass class AugmentedProcessor(BaseProcessor): def process(self): super().process() self._add_extra_step() ``` 3. **数据预处理** 在数据分析中,通过添加衍生特征(如计算$BMI = \frac{\text{weight}}{\text{height}^2}$)提升模型输入的信息量。 --- #### 二、具体实现方法 1. **图像数据增强(Python示例)** 使用`keras.preprocessing.image.ImageDataGenerator`: ```python from tensorflow.keras.preprocessing.image import ImageDataGenerator datagen = ImageDataGenerator( rotation_range=20, horizontal_flip=True, zoom_range=0.2 ) augmented_images = datagen.flow(training_data, batch_size=32) ``` 2. **文本数据增强** 使用`nlpaug`库进行同义词替换: ```python import nlpaug.augmenter.word as naw aug = naw.SynonymAug(aug_src='wordnet') augmented_text = aug.augment("An example sentence") ``` 3. **代码功能增强** 通过装饰器扩展函数行为: ```python def log_time(func): def wrapper(*args, **kwargs): start = time.time() result = func(*args, **kwargs) print(f"Time: {time.time() - start}s") return result return wrapper @log_time def process_data(data): # 原处理逻辑 ``` --- #### 三、注意事项 1. **数据增强需保留语义** 图像旋转角度不宜过大,文本替换不可改变原意[^1]。 2. **避免过增强** 过度增强可能导致数据分布偏移,可通过实验选择合适参数。 3. **标签一致性** 分类任务中,增强后的数据需保持与原数据相同的标签(如翻转后的猫图像仍标记为“猫”)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aitrainee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值