LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景！

原创于 2025-12-23 16:43:15 发布 · 293 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #人工智能 #大数据 #大模型教程 #大模型学习 #知识图谱 #深度学习

2025 年，让 Agent 实际投产、落地应用的最大障碍已经不再是成本问题了，而是「质量」。如何让 Agent 输出可靠、准确的内容，仍然是最难的部分。

近期，LangChain 通过对工程师、产品经理、企业高管等 1300 名行业人士进行调查，深度调研了 AI Agent 目前最真实的应用情况。

进入 2026 年，企业对于 Agent 的讨论焦点，已经从「要不要做」全面转向了「如何规模化、可靠且高效地用好」。

6 个关键结论：

Agent 实际落地应用趋势明显。57% 的受访者已将 Agent 投入到生产环境中，且规模越大的企业，落地速度越快；
客户服务、研究与数据分析是目前 Agent 最火热的两大应用方向，两者合计占据了所有应用场景的一半以上。说明，在重复性高、知识密集或直接面向客户的工作中，Agent 能最大化地创造价值；
确保 Agent 输出的结果稳定可靠，依然是商业化落地中最棘手的难题。相比之下，成本已不再是大家最头疼的问题，行业的关注点正从「省钱」转向「如何让产品做得又快又好」；
Agent 的「可观测性」已经成为行业标配。大多数团队，都会对 Agent 进行全面追踪，记录内部运行状态和行为模式；
关于 Agent Evals 的实践还不够成熟。约半数团队会进行离线评估，只有约三分之一的团队会在真实的生产数据上进行在线评估。
Coding Agent 是大家在日常工作中使用最频繁的。此外，仍有相当一部分受访者表示，除了聊天或编程助手，还没用过其他类型的 Agent。

01 规模越大的企业，

落地 Agent 速度越快

调研数据显示，超过一半（57.3%）的受访者已经将 Agent 投入实际生产，另有 30.4% 的人正在开发且有明确的上线计划。

这一数字比去年的 51% 有了明显增长，行业正在从「概念验证」快速迈向「价值实现」阶段。

规模越大，行动越快

一个有趣的现象是，万人以上的大型企业中，已经有 67% 将 Agent 投入生产，24% 正在积极开发并计划部署；而在百人以下的小公司，这个比例是 50% 和 36%。这说明，大型企业凭借平台、安全和基础设施上等方面的资源优势，能更快地将 Agent 从试验品变成稳定可靠的生产力工具。

02 落地最快的场景：客户服务、研究与数据分析

**客户服务（26.5%）成为最普遍的 Agent 用例，研究与数据分析（24.4%）紧随其后。**两者合计占据了所有应用场景的一半以上。

客户服务用例的亮眼数据，说明企业正在大胆地将 Agent 直接推向一线，面向真实客户，不仅仅是限于内部使用。
同时，Agent 在企业内部也创造了显著价值，例如，有 18% 的受访者将其用于内部工作流程自动化，来提升员工效率。
研究与数据分析用例的普及，再次证明了 Agent 在海量信息整合、跨源推理和加速知识型工作方面的核心优势。

值得注意的是，今年的应用场景分布更广，说明 Agent 的应用正在从几个早期领域向更多元化的方向渗透。

规模化应用中的场景差异

在万人以上的大企业中，提升内部生产力（26.8%）反超客户服务，成为第一大应用场景。这或许说明，大企业倾向于先在内部用 AI 提升团队运营效率，然后再将其推广到外部客户。

03 输出质量仍是 Agent 落地的最大障碍

和去年一样，**质量仍然是阻碍 Agent 大规模应用的最大障碍，三分之一的受访者将质量视为主要瓶颈。**这里的质量问题，指的是 Agent 的准确性、相关性、输出结果的一致性，以及在维持适切语调、遵循品牌或政策规范方面的能力。

延迟（20%）则成为第二大挑战。当 Agent 被用于客服或代码生成这类实时交互场景时，响应速度直接决定了用户体验的好坏。这也反映出团队必须在「效果」和「速度」之间做出权衡，功能更强、步骤更多的 Agent 虽然能产出更高质量的结果，但响应速度往往也更慢。

一个积极的变化是，随着模型价格下降和技术优化，成本已不再是大家最头疼的问题。团队的关注点正从单纯的开销转向如何让 Agent 运行得更好、更快。

不同规模企业的痛点问题不一样

对于员工数超过 2000 人的企业来说，质量问题仍然是首要障碍。但对安全问题（24.9%）的关注度超过了延迟问题，成为仅次于质量的第二大挑战。

对于员工数超过 1 万的企业，在开放式回答中，许多大企业提到「幻觉」和生成内容的一致性是保证质量的最大挑战，同时在上下文工程及大规模管理上下文方面方面也是困难重重。

04 Agent 执行流程的可观测性成为行业标配

能够追踪 Agent 多步推理链和工具调用的能力，已成为一项基本要求。89% 的企业已为其 Agent 实施了某种形式的可观察性，其中 62% 拥有详细的追踪能力，允许他们审查单个步骤和工具调用。

在已有 Agent 投入生产的受访者中，这一比例甚至更高：94% 部署了可观察性，其中 71.5% 具备了完整的追踪能力。这揭示了 Agent 工程的一条基本准则：如果无法洞察 Agent 的推理与行动过程，团队将无法可靠地排查故障、优化性能，也无法与内外部的利益相关者建立信任。

追踪 Agent 多步推理链和工具调用的能力，已经成为了一项行业标配。高达 89% 的团队部署了可观察性系统，其中 62% 能够进行细粒度的追踪，审查每一步的细节。

对于已经投入生产的 Agent 项目，这个比例高达 94%，其中 71.5% 具备了完整的追踪能力。这背后是 Agent 工程领域的一个基本共识：如果无法洞察 Agent 的思考推理与行动过程，团队将无法可靠地排查故障、优化性能，也无法与内外部的利益相关者建立信任。

05 Agent 评估越来越得到重视

虽然可观察性已经普及，但 Agent 评估仍是相对较新的领域。

超过半数（52.4%）的企业表示，会通过测试集进行离线评估，这说明许多团队已认识到在部署前发现性能衰退和验证 Agent 行为的重要性。

**在线评估（37.3%）的采用率较低，**但随着团队开始监控 Agent 在真实世界中的表现，这个比例正在增长。

当 Agent 进入生产环境后，评估变得更为重要。「不进行任何评估」的团队比例从 29.5% 大幅下降至 22.8%。进行在线评估的比例则上升至 44.8%，因为团队需要通过观察真实的生产数据来实时发现问题。

但大多数团队仍然是从离线评估入手，因为门槛更低、设置更明确。

在评估方法上，行业呈现出了混合模式。近四分之一的团队会同时采用离线和在线两种评估方式。

大家普遍依赖人机结合的方法：一方面，采用将大语言模型用作评判者（LLM-as-judge）（53.3%）的方式来扩大评估的覆盖面，同时通过人工审查来保证评估深度；另一方面，通过人工审查（59.8%）来保证评估的深度，尤其是在处理精细或高风险场景时。

相比之下，像 ROUGE 和 BLEU 这样的传统机器学习指标采用率较低，因为它们不适合评估开放式、存在多个合规答案的 Agent 交互场景。

06 GPT 占主导，

但混合使用多种模型是常态

虽然 OpenAI 模型在采用率上占主导地位，但几乎没有团队会把鸡蛋放在一个篮子里。

**超过三分之二的企业正在使用 OpenAI 的 GPT 模型，超过四分之三的团队在生产或开发中会使用多种模型。**大家越来越倾向于根据任务的复杂度、成本和延迟，灵活地将任务分配给不同的模型，而不是绑定在某一个平台上。

尽管商业 API 提供了便利，但在内部署模型对许多组织而言仍是一项重要策略。超过三分之一的组织仍在投资部署开源模型，主要是出于成本优化、数据主权或行业监管合规的考虑。

与此同时，微调（Fine-tuning）仍然没有成为主流选择。 57% 的组织没有进行微调，而是更依赖于提示工程和 RAG（检索增强生成）技术。主要是因为微调需要在数据收集、标注、训练基础设施和持续维护上进行大量投入，目前仍是少数高价值或专业化场景的选择。

07 日常工作中，

还是编程类 Agent 被用得最多

在日常工作中，最常用哪些 Agent？在开放式问答中，我们发现了几个清晰的模式：

编程 Agent 主导日常工作流。

到目前为止，绝大多数被提及的都是编程类工具，如 Claude Code，Cursor，GitHub Copilot，Amazon Q、Windsurf 和 Antigravity 等工具。这些工具被广泛用于代码生成、调试和测试。

研究类 Agent 是第二大常用类别

第二常见的模式是由 ChatGPT、Claude、Gemini、Perplexity 及类似工具驱动的研究与深度研究 Agent。这些 Agent 被用于探索新领域、总结长篇文档以及整合跨源信息，常常在同一工作流程中与编程 Agent 协同使用。

基于 LangChain 和 LangGraph 构建的自定义 Agent 也广受欢迎。

许多团队正在利用这些框架构建内部专用的 Agent，用于 QA 测试、知识库搜索、SQL/文本转 SQL、需求规划、客户支持和工作流自动化等场景。

值得注意的是，**仍有相当一部分受访者表示，除了聊天或编程助手，他们还没用过其他类型的 Agent。**这说明，虽然 Agent 概念很火，但「一切皆可 Agent」的愿景仍处于非常早期的阶段。

注：报告研究方法

本报告的数据来源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期间进行的一项公开调查，共收到 1340 份有效回复。

行业分布 Top 5：科技（占受访者的 63%）、金融服务（占受访者的 10%）、医疗健康（占受访者的 6%）、教育（占受访者的 4%）、消费品（占受访者的 3%）、制造业（占受访者的 3%）。

公司规模分布：少于 100 人（占受访者的 49%）、100-500 人（占受访者的 18%）、500-2000 人（占受访者的 15%）、2000-10,000 人（占受访者的 9%）、超过 10,000 人（占受访者的 9%）。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到优快云的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述