近期经过和一些人聊天,对关注的一些招聘信息的了解,以及最近几年专注于构建自主AI系统的经验,老白觉得有一件事情变得非常明显且令人深刻感悟:AI测试并不是传统意义上的软件测试。
作为技术从业者,我们正试图用一张旧地图去探索一块全新的大陆。而这正是许多看似前景光明的AI项目在带来实际价值之前就失败的主要原因。
我们所有人都在专注于提示工程(Prompt Engineering)、上下文工程(Context Engineering)以及智能体工程(Agent Engineering)。但我们完全忽略了一个最关键的领域:AI测试工程(AI Test Engineering)。而这也是越来越多大公司开始关注的领域。
底层测试逻辑的变革
在传统的软件测试中,我们常常提到一个东西,叫做测试金字塔(Testing Pyramid)。这玩意儿大伙儿都熟吧?底部是宽宽的金字塔底座,是那些运行速度快又便宜的单元测试;再往上是组件测试、集成测试,最后顶尖上少量的慢慢的、昂贵的端到端测试(End-to-End,简称E2E)。
这个模型有个核心假设:确定性(Determinism)。意思就是,给定相同的输入,你每次都会得到相同的输出。很简单,对吧?
但现在这个假设被生成式AI(Generative AI)一举打破了!
咱们来看看生成式AI的设计,其天生就带着非确定性(Non-determinism)。即使把温度参数调到0(就是尽量让模型输出更“死板”的结果),你也不能保证输出的内容会每次都一模一样、一字不差。你想想,如果再搞一个带多个子代理(Sub-agent)、一个规划模块(Planning Module)、还有一堆模型调用串起来的系统,那会怎么样?
这非确定性不光是加起来的问题,而是会“传播”甚至“放大”的!
结果是什么呢?在AI领域,测试金字塔倒过来了!
-
新的金字塔底部:
好消息是,你的AI代理(Agent)还是有工具的。比如,一个用来获取客户数据的API接口(像调用get_customer_data这样的端点),通常还是确定性的。你可以为这些工具写单元测试,而

最低0.47元/天 解锁文章
2189

被折叠的 条评论
为什么被折叠?



