AI变革:测试工程师的机会来啦

近期经过和一些人聊天,对关注的一些招聘信息的了解,以及最近几年专注于构建自主AI系统的经验,老白觉得有一件事情变得非常明显且令人深刻感悟:AI测试并不是传统意义上的软件测试。

作为技术从业者,我们正试图用一张旧地图去探索一块全新的大陆。而这正是许多看似前景光明的AI项目在带来实际价值之前就失败的主要原因。

我们所有人都在专注于提示工程(Prompt Engineering)、上下文工程(Context Engineering)以及智能体工程(Agent Engineering)。但我们完全忽略了一个最关键的领域:AI测试工程(AI Test Engineering)。而这也是越来越多大公司开始关注的领域。

底层测试逻辑的变革

在传统的软件测试中,我们常常提到一个东西,叫做测试金字塔(Testing Pyramid)。这玩意儿大伙儿都熟吧?底部是宽宽的金字塔底座,是那些运行速度快又便宜的单元测试;再往上是组件测试、集成测试,最后顶尖上少量的慢慢的、昂贵的端到端测试(End-to-End,简称E2E)。

这个模型有个核心假设:确定性(Determinism)。意思就是,给定相同的输入,你每次都会得到相同的输出。很简单,对吧?

但现在这个假设被生成式AI(Generative AI)一举打破了!

咱们来看看生成式AI的设计,其天生就带着非确定性(Non-determinism)。即使把温度参数调到0(就是尽量让模型输出更“死板”的结果),你也不能保证输出的内容会每次都一模一样、一字不差。你想想,如果再搞一个带多个子代理(Sub-agent)、一个规划模块(Planning Module)、还有一堆模型调用串起来的系统,那会怎么样?

这非确定性不光是加起来的问题,而是会“传播”甚至“放大”的!

结果是什么呢?在AI领域,测试金字塔倒过来了!

  • 新的金字塔底部:
    好消息是,你的AI代理(Agent)还是有工具的。比如,一个用来获取客户数据的API接口(像调用get_customer_data这样的端点),通常还是确定性的。你可以为这些工具写单元测试,而

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老白说IT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值