最近，懂AI产品的测试真的很加分！

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 632 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #软件测试 #程序员 #自动化测试 #测试用例 #AI #职场经验

程序员同时被 3 个专栏收录

1659 篇文章

订阅专栏

软件测试

1641 篇文章

订阅专栏

636 篇文章

订阅专栏

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

当AI浪潮席卷而来，国内各类问答机器人、智能助手如雨后春笋般涌现，作为一名AI产品的软件测试工程师，我常被朋友问到：“你们平时是怎么测这些AI？不会真就还是点点点吧？感觉现在的AI产品很爱一本正经的胡说八道，你们是怎么判断答案的准确性呢……”

其实AI产品的功能测试是最基础的，跟传统产品测试不同，AI产品最重要的测试标尺是：答案准确率。

尤其是在医疗建议，政策解读，法律咨询等场景中，一句错误的回答轻则误导用户，重则引发事故。

当行业都在追逐模型的参数量时，我们测试工程师在死磕一件事——如何让AI的每句回答，都经得起真相的拷问。

不同类型的问题解析和测试建议

问题的选择很重要，测试的时候，我们要尽可能多维选择问题，而非用同一种问题多次提问。

具体可参照下面的表:

以上问题要怎么测试答案的正确性，我来说说我的意见。

01 事实型

这个问题主要依赖数据源质量，信息处理逻辑，表达严谨性及其明确的边界意识。

比如你问“全球平均寿命是73岁”，回答说“不对，某某论坛说吃过保健品后，人类寿命可以到90岁”，那这就是数据源问题了。

02 观点型

这种不能直接给出绝对答案。因为你并不知道用户关注的是哪方面？比如示例问题中问国内新能源汽车哪家做的好？

那我们首先要限定在国内，其次通过销量，技术，用户体验，外观性价比等不同角度来分析，最后经过综合评分，给出建议，并列出他的优势和劣势，供用户选择。

03 操作型

这种问题的准确性关键在于步骤可执行性、环境适配性、风险控制及容错指引。

评判标准就是能让你跟着他的步骤完成你想做的事，并且当出现问题能有相应的解决方案指引。

04 静态知识

这种问题的核心挑战在于知识结构化呈现、认知负荷控制、概念关联性构建。

很多人觉得这类是最简单的，但其实也有很多陷阱。

比如，当AI连“水的沸点”都答错时，用户如何相信其“癌症治疗方案”？

在国内环境中，政治类静态问题具有一票否决权，某政务AI因将“西藏成立时间”表述为1951年（应为1965年自治区成立），导致整个项目下线整改——静态知识无小事一定，可以从以下几个方面去执行测试：

4.1、建立静态问题“零容忍清单”：

国土/政治/历史类问题
每日执行核心知识巡检（50题/天）

4.2、设计“混淆攻击”测试集

“水的分子式？ vs H₂O是什么？”
“北京是capital of China？”

4.3、输出稳定性监控

相同问题连续提问100次，答案方差需=0。

通过静态问题的极致验证，为AI产品打下可信赖的认知地基——这恰是测试员对用户最根本的负责。

05 动态知识

动态知识验证是AI问答测试的生死战场，尤其在政策、医疗、金融等领域。

以下是一些典型问题举例和验证方法建议：

典型场景：

政策法规：2025年个税专项附加扣除新规
医疗指南：HPV疫苗接种间隔调整
金融市场：A股交易印花税率变更

验证方法：

5.1、监控机制：

# 动态知识监控脚本示例def monitor_knowledge_update(keyword):    # 实时爬取权威源（政府/学术网站）    gov_source = crawl("www.gov.cn", keyword)    # 比对AI知识更新时间戳    assert ai_knowledge[keyword].update_time >= gov_source.publish_time

附录：国内权威源清单：