老板先别着急辞退我,Agent代替我还要2年

2025年是Agent的元年。从Manus的爆火,到OpenAI等厂商亲自下场做Agent。众多大厂开始寻求合适Agent来提高公司效率,眼看大规模的失业潮要来临了。已经到了八月,Agent进展的如何,能替代员工了吗?
AI Agent就是通过API的方式,调用基础大模型(Claude为主,ChatGPT5也很不错),来完成复杂的,真实工作场景下的工作。简单的比如搜索+研究报告的DeepResearch。客服等等工作流。
最近有一篇文章广为流传,作者Utkarsh Kanwat,开发了12个AI Agent。都是在AI最擅长,最容易出成果的IT领域。我们来看看这篇文章的核心观点。
我构建过的 AI Agent 类型
  1. 开发类 Agent
1)UI 生成 Agent:将自然语言直接转换为可运行的 React 组件。
2)代码重构 Agent:将遗留代码库现代化。
3)文档生成 Agent:自动维护 API 文档。
4)函数生成 Agent:将规格说明转为可运行的实现。
  1. 数据与基础设施类 Agent
1)数据库操作 Agent:处理复杂查询与迁移。
2)DevOps 自动化 Agent:跨多个云提供商管理基础设施即代码(IaC)。
  1. 质量与流程类 Agent
1)AI 驱动的 CI/CD 流水线:自动修复 Lint 问题。
2)测试生成 Agent:生成全面的测试套件。
3)代码审查 Agent:自动化代码评审并生成详细的 Pull Request 描述。
存在的问题一:准确性差
  1. 假设每一步的成功率为 95%(对当前 LLM 已经是乐观估计):
1)5 步 → 成功率 77%
2)10 步 → 成功率 59%
3)20 步 → 成功率 36%
  1. 如果单步准确率达到 99%(目前几乎没人能做到):
20 步 → 成功率仍只有 82%。
存在的问题二:Token消耗量爆炸
会话型 Agent 的实际运行机制:
1)每一次交互都需要处理之前的全部上下文;
2)Token 成本随会话长度呈二次方增长;
3)100 轮对话的 Token 成本可达 50-100 美元;
4)一旦放大到成千上万用户,经济模型彻底崩溃。
存在的问题三:现实世界比API复杂
企业系统并不是干净的 API:
  • 有遗留系统;
  • 有各种异常状态;
  • 身份认证随时变动;
  • 请求速率限制;
  • 合规要求与 Prompt 模板格格不入。
生产 Agent 系统中 AI 只做 30% 的工作,其余 70% 都是:
  • 工具反馈接口设计;
  • 上下文管理优化;
  • 部分失败处理;
  • AI 能理解并使用的恢复机制。
构建正确 Agent 的原则
  1. 明确边界:Agent 能做什么?哪些交由人类或确定性系统处理?
  2. 面向失败设计:AI 错误率 20%-40% 时,回滚与恢复机制如何工作?
  3. 解决经济问题:每次交互成本是多少?随规模如何变化?无状态通常优于有状态。
  4. 优先稳定性而非自主性:用户更信赖稳定可预期的工具,而不是偶尔惊艳的“魔法”。
  5. 基于坚实工程基础:AI 用于理解和生成,执行、错误处理、状态管理仍由传统工程负责。
从以上内容看来,普通企业想要用Agent代替员工还有很长的路要走。只有那些本身可靠性要求不搞的场景才能用起来。
2025年,Agent有哪些场景会真正成熟起来呢?
📌 自主检索增强生成 (Agentic RAG)
基于推理的,用于实时数据检索和生成的AI智能体工作流。
Agentic RAG的应用不局限于单一场景,同样也被应用于医疗保健领域。
举例:Perplexity, Harvey AI 和 Glean AI
📌 语音智能体 (Voice Agents)
能够通过自然口语与用户互动的智能代理,利用广泛的文本转语音(TTS)和语音转文本(STTS)的嵌入和检索技术。
举例:ElevenLabs, Cognigy, Vapi 和 Deepgram
📌 AI智能体协议 (AI Agent Protocols)
简化多智能体之间的通信,支持不同框架下构建的智能体之间的交流。
举例:Accenture,A2A, ACP, SLIM等
📌 计算机使用智能体 (CUA - Computer Using Agents)
能像人类一样与计算机交互的AI智能体,可利用浏览器、命令行界面(CLI)甚至鼠标光标等工具。
举例:OpenAI的Operator, Claude的Computer Use, H-Company的Runner H以及Manus AI
📌 编程智能体 (Coding Agents)
借助巧妙的工具使用和基于大语言模型(LLM)的代码生成,使构建和调试应用程序的速度提高10倍的多智能体。
举例:Windsurf, Cursor 和 GitHub Copilot
📌 深度研究智能体 (DeepResearch Agents)
协作式多智能体系统,可从大量来源构建内容详尽的研究报告。
举例: Gemini DeepResearch, OpenAI DeepResearch 和 You(.)com DeepResearch
福利:想体验ChatGPT-5的朋友,ppword.cn把ChatGPT-5的nano彻底免费了,AI搜索也是免费的。建议大家先用起来。然后决定是否要用更加高级的AI。不过其他的AI也是API原价。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值