为什么用AI还写不好测试用例？-优快云博客

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

AI技术正迅速渗透到软件开发的各个阶段，测试用例编写这一传统上高度依赖人工经验的工作，也成为其重点应用场景。然而，许多团队在满怀期待地尝试后却发现，AI生成的测试用例往往质量不尽如人意，甚至存在严重缺陷。

为什么看似强大的AI技术

在这一领域却难以达到预期效果？

AI生成测试用例

2个核心缺陷

01 不准确

AI大模型在生成测试用例时，经常会表现出"幻觉"现象——即模型基于训练数据中的模式"虚构"出需求中并未明确指定的功能或规则。

实际案例场景

某电商平台开发了一个新的商品折扣功能，需求描述为"用户购买满200元可享受9折优惠"。AI生成的测试用例中包含了一条"新用户首次购买立减10元"的测试场景。经核查，这是AI基于训练数据中常见的电商促销模式"脑补"出来的测试点，而实际需求中从未提及此类规则。

这种幻觉导致测试团队需要花费大量时间验证和剔除AI生成的错误用例，反而增加了工作负担。

02 不全面

AI在生成测试用例时，往往难以全面覆盖所有必要的测试维度，特别是边界条件、异常流程和系统交互等复杂场景。

实际案例场景

某银行系统需要验证转账功能，需求包括："单笔转账金额范围为1-50000元"，"每日累计转账不得超过100000元"。AI生成的测试用例虽然覆盖了正常范围内的转账测试，但完全遗漏了以下关键测试点：

边界值测试：0.99元、1元、50000元、50000.01元
异常场景：转账金额为负数、字符、特殊符号
关联限制：当日累计转账达到100000元后再次尝试转账
系统交互：转账过程中网络中断、银行系统繁忙等场景

这些遗漏的测试点往往是线上故障的高发区，AI的片面性导致测试覆盖度严重不足。

问题根源

深度分析

01 多模态理解能力的缺失

当前主流大语言模型（如DeepSeek-R1）仅能处理文本信息，无法理解需求分析中常用的原型图、流程图、架构图等视觉信息。

案例深度分析

某团队开发一个社交应用的"点赞"功能，需求文档中包含了一个交互流程图，明确显示了"连续点赞5次后触发动画效果"的细节。由于AI只能读取文字需求，完全错过了这一重要交互逻辑，生成的测试用例中没有任何与点赞次数相关的测试场景。

解决方案

解决方案有两种：一是将视觉信息人工转化为文字描述，但这个过程可能引入信息失真；二是使用多模态模型，但这类模型在逻辑推理能力上往往不如纯文本模型强大。

02 输入质量决定输出质量

AI领域经典的"垃圾进，垃圾出"原则在此体现得淋漓尽致。需求文档本身的质量直接影响AI生成测试用例的效果。

案例深度分析

某金融科技公司使用AI生成投资理财功能的测试用例，但由于需求文档中存在多处模糊表述，如"在某些情况下显示风险提示"，没有明确什么情况、提示内容是什么，导致AI生成的用例完全无法验证风险提示功能是否正确工作。

解决方案

提高需求文档质量是改善AI输出效果的前提条件。结构化的Markdown文档比非结构化的Word或PDF文档更易于AI解析和理解。

03 领域知识与业务逻辑的缺失

通用大模型缺乏对特定行业和业务场景的深入理解，这是导致测试用例不准确和不全面的根本原因之一。

案例深度分析

某医疗软件公司开发患者信息管理系统，需求包括"患者年龄范围0-120岁"。AI生成的测试用例中包含了0岁和120岁的边界测试，这看起来不错。但医疗行业的特殊要求是：新生儿年龄需按天计算，0岁实际上不是有效值；而120岁以上的患者虽然罕见但仍需支持。这些领域知识是AI无法从通用训练数据中获得的。

解决方案

针对这一问题，RAG（检索增强生成）技术是目前最实用的解决方案。通过构建测试知识库、业务知识库和项目知识库，为AI提供必要的背景信息。

04 上下文限制与任务拆分的必要性

大语言模型有限的上下文窗口迫使AI将答案压缩在有限空间内，导致生成的测试用例缺乏细节和深度。

案例深度分析

某企业级SaaS系统有超过200个功能点的需求文档，一次性输入给AI要求生成全部测试用例。结果AI只能为每个功能生成1-2个最基础的测试场景，完全无法达到测试要求。

解决方案

解决方案是将大型需求拆分为小块，分批输入给AI处理。例如先按功能模块拆分，再为每个模块中的具体功能点分别生成测试用例。这种方式虽然增加了调用次数，但显著提升了生成质量。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】