吴恩达提出反直觉观点:关于Agent如何进步

 Datawhale干货 

作者:吴恩达,编译:Datawhale

人工智能著名学者、斯坦福大学教授吴恩达在 X 上最新发帖中表示,他上周提到一个观点,即真正决定团队在构建AI智能体方面进展速度的,不是掌握最新工具,而是看似平淡无奇的评估和错误分析流程。这个说法引发了特别多读者的讨论,有人惊讶有人赞同。

他观察到,人们常倾向于跳过这些流程,快速尝试修复错误,而不是放慢脚步找到根本原因。但他认为,一个有纪律的评估和错误分析流程能够带来更快的进步。

在这封分两部分的通讯文章的第一篇中,吴恩达教授分享了一些发现并解决智能体系统问题的最佳实践。

错误分析看似枯燥,实际上特别重要

尽管错误分析一直是构建监督学习系统的关键环节,但它的重要性往往被低估,人们更倾向于追捧最新、最热门的工具。他认为,找出特定类型错误的根本原因看似十分“枯燥”,但这能带来显著回报。

为了证明错误分析的价值,吴恩达教授举了几个例子:

  • 想要熟练掌握一首乐器曲目时,更重要的是找出薄弱环节,有针对性地加强练习,而不是只从头到尾演奏。

  • 保持健康时,需要咨询医生、并通过验血检查是否存在问题,而不是只根据最新的营养潮流来调整饮食。

  • 提高运动队表现时,需要回顾比赛录像以发现差距并加以解决,而不是只练习花哨的技巧。

因此,他建议,在提升 agentic AI 系统时,不应该盲目堆叠那些在社交媒体上刚火起来的流行技术。相反,应通过错误分析找出系统薄弱环节,并针对性地加以改进。

评估(Evals)的流程和挑战

在分析错误之前,首先要明确「什么是错误」。因此,第一步是引入评估机制。本文余下部分将重点探讨这一问题,而错误分析则留到下周再讲。

  • 监督学习:评估相对简单,因为算法犯错的方式有限(如输出0而不是1),并且可以使用标准指标,如准确率(accuracy)、精确率(precision)、召回率(recall)和 F1 分数、ROC 曲线等。

    因此,只要清楚测试数据的分布,模型评估就相对直接。错误分析的主要工作在于识别模型在哪些类型的输入上容易出错,这也推动了以数据为中心的 AI 方法——通过收集更多数据,针对性地增强模型在薄弱环节的表现。

  • 生成式AI的挑战:虽然监督学习中评估和错误分析的许多经验仍然适用,但生成式AI带来了一个新的挑战:输出空间要丰富得多,导致算法出错的方式也更多。

    以财务发票的自动化处理为例,大家通常采用 agentic workflow ,将收到的发票信息自动录入财务数据库。但算法是否可能错误提取发票的到期日?或搞错应付金额?是否可能混淆付款方和开票方的地址?是否会弄错货币种类?又或者因调用错误的 API 而导致验证失败?由于输出结果的可能性更多,潜在的出错方式也随之大幅增加。

鉴于生成式AI输出的复杂性,吴恩达教授建议一种更有效的方法:不是预先定义错误指标,而是首先快速构建一个原型。

然后,人工检查少量智能体的输出,观察它在哪些方面表现良好,哪些方面出现问题。这使得开发者可以集中精力构建数据集和误差衡量标准——这些标准有时是通过代码实现的客观指标,有时则是利用 LLM 作为裁判的主观评估。

他发现,在 agentic workflow 中,调整评估指标(tuning evals)是一个更加迭代的过程,需要更频繁地进行调整,来捕捉更广泛的潜在问题。

下一步则是通过错误分析,精准定位最需要改进的地方,以便集中开发资源。

图片

一起“赞”三连

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值