【AI落地】AI生成测试用例,claude or gpt?(提效至少 50%)

结论: // 完整性 & 准确性:
Claude3.5 > GPT-4 > GPT-3.5

一、生成用例的提示词效果

常见的产品需求,有以下3种情况
o1、纯文字,不带图片
o2、文字,带图片
o3、纯图片

使用同一套提示词,效果:o1==o2>03

二、生成用例的过程

o1、提示词中加入相关需求
o2、提交给大模型(claude-3.5-sonnet),生成一个初版用例
o3、大模型生成的用例,复制到本地,添加到本地用例excel里
o4、本地优化用例excel
o5、提交到测试用例平台

注: 用excel,是因为公司内部使用 excel 上传管理用例。(可通过提示词修改)

三、生成用例的完整提示词,以及这套提示词的编写思路

1、生成用例完整提示词
你是一个测试工程师,编写测试用例时,需要考虑测试前期数据准备、基础功能、性能、压力、异常、兼容性以及用户体验性。

如果这是一个后台需求,需要考虑以下2种情况:
1、后台配置修改后,对H5页面的数据影响;
2、后台配置修改后,对后台历史配置数据的影响

如果这是一个H5需求,还需要考虑:
1、接口下发数据更新后,对H5页面的数据影响;
2、接口服务异常,对H5页面的影响


针对以下需求,生成测试用例:
{this is requirements content 在这里粘贴需求原文}

输出要求如下:
1、输出一份csv格式测试用例,字段包括模块、用例描述、所属端,分隔符使用分号。
2、模块部分要求根据功能和交互进一步细分
3、用例描述中,需要包括用例详细描述和对应的预期结果,需要考虑到接口字段交互,展示内容和对应字段
4、所属端字段值包括:客户端、服务端
2、提示词的编写思路

首先这套提示词不是最终形态,也不会返回最完美的效果。
因为编写 prompt 也是一个持续迭代优化的过程。

(1)提示词要素&规则
  • 简洁、明确、具体
  • 给个身份&案例(role background 设定背景场景)
  • 做什么/输出什么(指定输入输出)
  • 精确(要/不要)

上面的提示词基本就是按照这个思路写的,其中指定输入输出其实还可以继续优化 or 根据业务需求场景更改。

(2)一个更全面的学习编写提示词的课程 -> promptingguide

我使用这套提示词,最近几个月基本是大杀四方,快乐无边哈哈哈哈。

如果你用的效果不佳,可以试试改一下提示词,明确你的预期,让大模型给你返回你想要的。
事在人为,不要因为大模型的不完美否定大模型呀!

<think>好的,我现在需要帮助用户寻找与DeepSeek相关的测试用例或示例。首先,我应该先理解用户的具体需求。用户到“deepseek testing examples or test cases”,可能是在寻找关于DeepSeek模型或其产品的测试案例,或者是如何使用测试框架来测试基于DeepSeek开发的应用程序。 接下来,我需要查看用户供的引用内容。引用[3]中到DeepSeek的模型评估,包括不同版本的模型如DeepSeek-V2-0506和DeepSeek-V2.5-0905,并与LLaMA、ClaudeGPT-4o等进行了比较。这可能说明DeepSeek的测试用例可能涉及模型性能评估、与其他模型的对比测试等。但用户供的引用中没有具体的测试用例示例,更多的是关于测试方法或评估配置的信息。 引用[1]到了Go语言中的测试文件命名规则和测试函数的结构,这可能与用户的问题无关,除非DeepSeek有使用Go语言的测试框架。引用[2]讨论了好的测试用例的标准,强调测试应获取信息并验证功能,这可能对用户构建测试用例有帮助,但未直接供DeepSeek的示例。引用[4]到神经网络的作业和参数调整,可能与模型训练相关,但同样不直接涉及测试用例。 因此,用户可能需要寻找的是如何为DeepSeek模型设计测试用例,或者DeepSeek官方是否供了测试示例。由于引用中没有具体的测试案例,我应该建议用户参考官方文档、GitHub仓库或社区资源。例如,可以查看DeepSeek的GitHub是否有测试代码,或者其文档中是否有关于模型评估的示例,如性能基准测试、输入输出验证等。 另外,根据引用[3],DeepSeek的评估涉及不同模型版本的对比,用户可能需要设计类似的功能测试、性能测试或兼容性测试用例。例如,测试模型在不同输入下的响应准确性,或者处理边界情况的能力。同时,引用[2]中到合法数据验证功能,用户在设计测试用例时应确保覆盖正常和异常场景。 总结来说,用户需要具体的测试用例示例,但现有引用中缺乏直接的信息。因此,回答应指导用户查阅官方资源,并基于测试原则供设计测试用例的建议,如功能测试、性能测试、边界测试等。同时,可以建议参考类似模型(如GPT)的测试方法,或使用公开的基准测试数据集来评估DeepSeek模型。</think>关于寻找与DeepSeek相关的测试用例或示例,以下是分步说明和资源建议: ### 1. 官方文档优先检索 建议首先访问DeepSeek的: - **开发者文档**(如[DeepSeek API文档](https://platform.deepseek.com/api)) - **GitHub官方仓库**(搜索`deepseek-ai`组织) - **技术博客**(查看模型评估方法章节) 这些平台通常会供: - API接口的单元测试样例 - 模型输入输出的验证案例 - 性能基准测试配置示例 ### 2. 测试用例设计维度 基于引用[3]的模型评估方法,可设计以下测试类型: #### (1)**功能验证测试** ```python # 示例:对话连贯性测试 def test_conversation_continuity(): response1 = model.chat("量子力学的基本原理是什么?") response2 = model.chat("刚才说的原理如何应用于量子计算?") assert "叠加态" in response2 # 验证上下文关联性 ``` #### (2)**边界测试** ```python # 示例:超长输入测试 long_text = "AI" * 5000 # 生成10,000字符输入 response = model.process(long_text) assert len(response) > 0 # 验证处理能力边界 ``` #### (3)**对比测试** ```python # 示例:多模型结果一致性验证 def test_result_consistency(): deepseek_res = deepseek_model("解释相对论") baseline_res = baseline_model("解释相对论") assert similarity_score(deepseek_res, baseline_res) > 0.7 ``` ### 3. 性能测试配置 根据引用[3]的评估方法,建议关注: ```markdown - 压力测试:`并发请求量 >= 1000次/秒` - 时延测试:`P99响应时间 < 2秒` - 资源消耗:`GPU内存占用率变化曲线监测` ``` ### 4. 测试用例参考模式 虽然未找到直接公开的测试套件,但可参考: 1. 使用**公开基准测试集**(如MMLU/C-Eval) $$ \text{准确率} = \frac{\sum_{i=1}^{N}I(\text{预测}_i = \text{标签}_i)}{N} $$ 2. 构建**领域特定测试集**(如法律/医疗垂类问答) 3. 实施**对抗测试**(包含误导性问题的测试案例) ### 5. 实施建议 1. 使用`pytest`框架组织测试用例 2. 结合`deepseek-python` SDK编写自动化测试 3. 采用`tox`工具管理多环境测试矩阵 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值