“亲手做了12个AI Agent,我并不看好2025年的智能体!”

大模型爆红后,不少人都在高喊“AI Agent 才是未来”,连英伟达 CEO 黄仁勋也曾断言,Agent 将催生万亿级新市场。然而在一线开发者眼中,现实远没那么乐观。

近日,一位曾在开发、运维和数据运营等领域构建过 12 个以上生产级 AI Agent 系统的工程师发文,直言自己并不看好 2025 年这波 Agent 热潮——他认为,当下关于“自主智能体”的设想在数学上根本走不通,真正能在生产环境中跑得稳的 Agent,也完全不是现在市面上宣传的那一套。

原文链接:https://utkarshkanwat.com/writing/betting-against-agents/

作者 | Utkarsh Kanwat       责编 | 苏宓

出品 | 优快云(ID:优快云news)

很多人说“2025 是 AI agent 元年”。各种新闻文章标题都这么写:

  • “AI agent 会彻底改变工作方式”

  • “Agent 是 AI 的下一个风口”

  • “未来是属于 Agent”

而我却刚刚花了一年时间搞清楚哪些 Agent 在生产环境里真的能用,也正因如此,我才不看好这股风。

我不是唱反调的人,我是真干过的

过去一年我做了十几个上线的 Agent 系统,覆盖整个软件开发流程,比如:

  • 开发类 Agent:自然语言生成 React 组件、重构老代码、自动维护 API 文档、根据说明生成函数。

  • 数据和基础设施类 Agent:自动执行复杂 SQL、搞定数据库迁移、用 AI 管基础设施代码(IaC)并支持多云。

  • 质量和流程类 Agent:AI 驱动的 CI/CD 流水线,自动修复 lint、生成测试、做代码审查、写 PR 描述。

这些系统确实能用,确实创造了实际价值,每天都能帮人省下好几个小时的手动操作。也正因为如此,我才认为外界把 2025 称作 “AI Agent 元年” 的说法,忽略了很多关键现实。

要点速览:关于 AI Agent 的三个残酷现实

在构建了 12 套以上的生产级系统之后,我得出以下几点结论:

  • 多步骤流程中的错误率会呈指数级放大。即便每一步的成功率有 95%,到第 20 步时整体成功率也只剩 36%。而生产环境的要求是 99.9% 起步。

  • 上下文窗口带来的 token 成本是二次增长的。对话越长,成本越高,规模化后开销惊人。

  • 最大的难题不是 AI 本身的能力,而是如何设计 Agent 真正能用的工具和反馈系统。

一个没人愿意面对的数学现实

所有做 AI Agent 的公司都在回避一个难以接受的事实:在生产级别的多步骤任务中,错误的累积让“全自动智能体”在数学上根本行不通。

AI Agent 流程中的错误累积

咱们算算账。如果一个 Agent 流程中每一步的可靠率是 95%(这对现在的大模型来说已经很乐观了),那么整体成功率就是:

  • 5 步流程,成功率约为 77%

  • 10 步流程,成功率约为 59%

  • 20 步流程,成功率仅剩 36%

而生产环境要求的可靠率通常要达到 99.9% 以上。即使你奇迹般地让每步成功率达到 99%(目前没人做到),20 步的整体成功率也只有 82%。这不是提示词设计的问题,也不是模型能力的问题,而是数学上的现实

我做的 DevOps Agent 能用,正是因为它根本不是一个 20 步的全自动流程。它被拆分成 3-5 个独立的、可以单独验证的操作,有明确的回滚点和人工确认环节。Agent 负责生成复杂的基础设施代码,但整个系统架构都是基于可靠性这个数学限制来设计的。

我做过的每一个成功 Sgent 系统都有相同的规律:有边界清晰的上下文、可验证的操作步骤,以及关键节点上的人工决策点。一旦你试图让智能体自主串联起超过几个步骤的复杂操作,数学就会让你吃瘪。

长对话意味着成本爆炸

还有一个数学现实是很多 AI agent 支持者故意忽略的:上下文窗口会导致 token 成本呈二次方增长,这让基于对话的 Agent 在经济上根本不划算。

具体来说,做一个“会聊天”的 Agent 会遇到这样的问题:

  • 每次新交互都得处理之前所有的上下文

  • token 消耗随着对话长度成二次方增长

  • 一场 100 轮的对话,仅 token 成本就可能高达 50 到 100 美元

  • 用户一多,成千上万,这成本完全无法承受

我自己在做一个会话型数据库 Agent 的原型时就深有体会。

刚开始几次交互成本还低,但到了第 50 次请求时,每条回复花费已经是几美元,远超它能带来的价值。绝大多数场景下,这种经济模型根本行不通。

我做的函数生成 Agent 之所以成功,是因为它完全无状态:输入描述-输出函数-过程结束。没有需要维护的上下文,也不用追踪对话,避免了成本的爆炸。它不是“和代码聊天”的体验,而是专注解决具体问题的工具。

实际上,生产环境中最成功的 Agent 往往根本不依赖对话。他们是聪明而有边界的工具,专注做好一件事,然后干净利落地退出,不拖泥带水。

最大难题不是模型能力,而是工具设计

你就算搞定了上面两个数学问题,还得面对一个现实:AI 想用好工具,必须有合适的接口和反馈系统。但现在很多团队都严重低估了这个挑战

现在的工具调用其实已经相当精准了,真正的难点在于工具设计。每个工具都必须经过精心打磨,既能给出合适的反馈,又不能让上下文窗口被信息淹没。你需要考虑:

  • Agent 怎么知道某个操作只是部分成功?怎么在不浪费大量 token 的情况下传达复杂的状态变化?

  • 比如数据库查询可能返回 1 万条数据,但 Agent 只需要知道“查询成功,1 万条结果,这里是前 5 条”,设计这种抽象是一门艺术。

  • 当工具失败时,Agent 需要哪些信息来恢复?信息太少它会卡住,太多又浪费上下文资源。

  • 怎么处理相互影响的操作?比如数据库事务、文件锁、资源依赖关系。

我做的数据库 Agent 能用,不是因为工具调用不出错,而是因为我花了几周时间设计了能和 AI 有效沟通的工具接口。每个工具都会返回结构化的反馈,Agent 能真正用来做决策,而不是单纯拿到一堆原始的 API 响应。

那些号称“接上 API,Agent 就能搞定一切”的公司根本没做过这方面的工程工作。他们把工具当成人机交互界面设计,而不是针对 AI 设计。结果是,虽然 Agent 表面上能成功调用 API,却无法真正完成复杂流程,因为它根本没弄懂发生了什么。

每个生产环境中的 Agent 系统背后有个不为人知的真相:AI 可能只做了 30% 的工作,其余 70% 是工具工程——设计反馈接口、高效管理上下文、处理部分失败,以及构建 AI 能理解和利用的恢复机制。

整合现实考验

假设你已经解决了可靠性和经济性问题,接下来还得面对一个更大的挑战——和现实世界系统的集成,而现实往往很复杂糟糕。

企业系统并不是一套干净利落的 API,等着 AI agent 去协调。它们大多是遗留系统,有各种怪癖、存在各种故障模式、随时可能变动的认证流程、按时间变化的访问频率限制,还有一些合规要求,根本套不进简单的提示模板里。

我的数据库 Agent 不只是“自动执行查询”。它还得处理连接池管理、事务回滚、只读副本、查询超时,并且记录所有操作以备审计。AI 负责生成查询语句,其他一切都靠传统系统编程。

那些吹嘘“全自动 Agent 能无缝集成你整个技术栈”的公司,要么太乐观,要么根本没真正在大规模生产环境试过。现实中,集成现实场景往往是 AI Agent 的坟墓。

什么才是真正可行的(以及原因)

做过十几个覆盖整个软件开发生命周期的 Agent 系统后,我发现成功的项目都有共同特点:

我的 UI 生成 Agent 之所以能用,是因为每个界面都会有人审查后才上线。AI 负责将自然语言转成可用的 React 组件,最终用户体验由人来把关。

我的数据库 Agent 之所以可靠,是因为每次有破坏性的操作都会先确认。AI 负责把业务需求转成 SQL,但数据完整性由人来保证。

我的函数生成 Agent 只在明确的边界内工作:给它一个规范,它输出一个函数。没有副作用,没有状态管理,也没有复杂集成。

我的 DevOps 自动化 Agent 通过生成基础设施即代码(IaC)来工作,这些代码可以审查、版本控制、回滚。AI 负责把需求转成 Terraform 代码,但部署流程有我们多年积累的安全机制。

我的 CI/CD Agent 有明确的成功标准和回滚机制。AI 负责分析代码质量、生成修复建议,但最后合并与否由流水线控制。

总结一句话:

AI 负责处理复杂问题,人工负责掌控关键决策,传统软件工程保障系统稳定可靠。

我的预测

以下是我对 2025 年哪些人将陷入困境的具体预测与判断:

  • 那些靠风险投资撑腰、打着“完全自主 Agent”旗号的初创公司,会最先碰到经济瓶颈。他们的 Demo 在五步以内的流程还挺顺,但客户真正需要的是 20 步以上的复杂流程,这从数学上根本撑不住。为了解决这种不可能解决的可靠性问题,烧钱速度会飙升。

  • 那些在已有企业软件产品上硬塞“AI agent”的公司,用户接受度会停滞不前。因为他们的 Agent 根本无法深入集成,处理不了真正的工作流程。

  • 胜出者会是那些打造受限、面向特定领域的工具团队,这些工具用 AI 处理难点,同时在人类控制或关键决策上保持严格边界。换句话说,不是“全自动一切”,而是“能力超强且边界清晰的助手”。

  • 市场最终会学会区分“演示效果好”的 AI 和“真正稳定可用”的 AI,而这个过程对许多公司来说代价会很高。

我并不是不看好 AI,而是对当前 Agent 架构的做法不看好。但我相信,未来会远比现在的炒作更有价值。

正确的构建方式

如果你打算做 AI agent,先从这些原则开始:

  • 明确界限:你的 Agent 到底能做什么,哪些部分交给人或确定性系统处理?

  • 设计容错:AI 出错的情况可能占 20-40%,你怎么应对?有没有回滚机制?

  • 解决经济问题:每次交互花多少钱,随着用户增长成本怎么扩展?无状态设计往往比有状态划算。

  • 把可靠性放在自治前面:用户更信赖稳定好用的工具,而不是偶尔能搞出神操作的系统。

  • 打好基础:AI 负责难点(理解意图、内容生成),关键环节(执行、错误处理、状态管理)仍靠传统软件工程。

Agent 革命迟早会来,只是它绝不会像 2025 年的宣传那样光鲜炫目,正因为如此,它才更可能成功。

推荐阅读:

旧手机先别扔!花不到70元,10年前旧手机「秒变」数据中心:下海识鱼8小时都没掉线

44万美元!马斯克重金悬赏“AI女友”开发者,网友:让我来

「删库跑路」的不是实习生,而是AI?一位CEO曝Replit翻车实录:“3天烧掉4500元,结果它撒谎造假、还删了我的数据库!”

2025 全球产品经理大会

8月15–16日·北京威斯汀酒店

互联网大厂&AI 创业公司产品人齐聚

12 大专题,趋势洞察 × 实战拆解

扫码领取大会 PPT,抢占 AI 产品新红利

图片

内容概要:本文介绍了AI Agent智能体的基本概念及其应用场景,并详细讲解了如何从零开始打造AI Agent。首先,文章解释了人工智能、机器学习、深度学习等基础知识,以及大语言模型(LLM)的特点和应用。接着,文章深入探讨了AI Agent的概念、与传统程序的区别,以及其在自媒体、智能客服、自动驾驶、股票交易和游戏NPC等多个领域的应用。随后,文章以字节跳动的“扣子(COZE)”平台为例,详细介绍了打造AI Agent的七个步骤,包括需求梳理、软件选型、提示工程、数据库搭建、UI界面构建、测试评估和部署发布。最后,文章通过两个项目实战案例——抖音短视频文案转小红书笔记和小红书文案+OCR+飞书同步,展示了如何实际应用AI Agent进行内容创作和数据处理。 适合人群:对AI和机器学习有一定了解的研发人员、产品经理和技术爱好者,特别是那些希望深入了解AI Agent的应用和开发过程的人群。 使用场景及目标:①帮助读者理解AI Agent的基本概念及其与传统程序的区别;②指导读者如何使用COZE等平台创建自己的AI Agent;③通过具体案例展示AI Agent在内容创作和数据处理方面的实际应用。 其他说明:本文不仅提供了理论知识,还结合了实际操作步骤和代码示例,帮助读者更好地理解和实践AI Agent的开发。建议读者在学习过程中结合实际项目进行实践,并尝试调整和优化各个步骤中的参数和设置,以获得最佳效果。
内容概要:文章概述了2025AI发展的七大主要趋势:一是AI Agent的快速演进及其广泛应用,包括超级助理的普及和多Agent系统的协作,改变了人机互动方式和个人及企业的工作模式。二是生成式技术和多模态模型的重大进步,如生成式AI创造虚拟世界,以及多模态大模型助力各行各业智能化。三是AI与智能硬件的深度集成,诸如人形机器人、智能外骨骼等设备更加智能,并且随着边缘计算的发展实现了更好的隐私保障和服务体验。四是AI在科研及具体产业的应用进一步加深,在诸如医学、自动驾驶等多个领域取得实质性的进展。五是关于AI的安全性和伦理性议题愈发重要,并采取了相应措施确保合理利用。六是在软件方面开发方式逐渐转变为由AI辅助编码与测试的低代码模式。七是AI正在逐步融入大众生活的方方面面并呈现出全球化特征。 适合人群:关注人工智能发展的科技从业者、创业者或政策制定者,也适用于对人工智能感兴趣并希望了解其未来走向的社会各界人士。 使用场景及目标:适用于那些需要跟踪前沿技术动态以便作出业务调整的人群;对于想要把握AI行业发展脉络、寻找投资机会或者进行学术研究的人来说尤为有用。 其他说明:值得注意的是文中所提到的各项技术创新虽然前景广阔但也伴随着一定的不确定性,比如AI伦理道德规范的持续完善和技术壁垒等挑战。同时强调指出企业和个人应该积极应对变化,利用新兴的技术和工具来获得优势并应对新的社会经济格局。
内容概要:报告探讨了AI Agent技术在药企研发智能化中的应用和发展趋势。首先介绍了AI Agent的基本概念及其不断进化的过程,特别是大型语言模型的出现为智能代理的发展带来的希望。随后详细阐述了AI Agent在药企研发中的具体应用场景,如专利撰写、临床数据分析、靶点筛选等,强调了其在提高研发效率、降低成本和提升决策质量方面的巨大潜力。报告还展示了智慧芽生物医药产品的AI Agent功能,如马库什结构权利要求撰写、临床结果分析、靶点成药优选抗体推荐等。此外,报告预测了未来AI Agent的市场前景,并指出到202660%的企业将部署AI Agent,其核心价值不仅在于效率提升,更在于通过降低数字化摩擦释放组织创新潜能。 适合人群:药企研发部门、知识产权部门、临床部门、商务拓展部门、项目经理等相关从业人员。 使用场景及目标:①提高专利撰写和审查的效率及准确性;②加快临床试验方案的设计和优化;③提升靶点筛选和药物情报分析的精准度;④增强企业内部跨部门协作和决策支持;⑤降低研发成本,缩短研发周期,提高研发成功率。 其他说明:报告还提供了具体的案例分析和技术细节,帮助读者更好地理解和应用AI Agent技术。同时,智慧芽生物医药的产品和服务为药企提供了全面、精确、实时的数据支持,助力企业在激烈的市场竞争中保持领先地位。报告最后提醒读者注意数据的准确性和时效性,建议结合实际情况灵活应用。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

优快云资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值