AI大模型的区别

  

      最近在fastgpt上搭建使用大模型进行测试用例的生成和调试,发现生成的效果不能满足测试需求,需要提供样本数据给大模型进行训练输出。样本数据需要提供:输入的内容+问题+思考过程+输出,当前调用的大模型工作流使用deepseek_chat模型,无法提供思考过程,所以需要更换大模型。现在大模型的工作流使用的模型是deepseek-reasoner,这个模型可以输出思考过程。因此整理一下AI大模型的区别。这里以【deepseek_chat】模型和【deepseek-reasoner】模型来举例

一、核心定位和能力差异

维度deepseek-chatdeepseek-reasoner
核心目标提供自然流畅的对话交互,优化多轮对话体验专注复杂逻辑推理,擅长多步骤问题拆解与严谨分析
生成风格输出简洁、口语化,适合直接回答或创意内容生成分步骤展示思考路径(如“Step 1: 分析问题 → Step 2: 推导过程”),增强可解释性
强项任务日常问答、多语言翻译、营销文案撰写数学证明、代码调试、科学建模、法律条文解析
局限性对需要逻辑推导或数学计算的任务表现较弱文学创作灵活性不足,开放式对话连贯性稍

二、技术实现差异

技术维度deepseek-chatdeepseek-reasoner
训练数据融合通用文本(书籍、网页对话),侧重语言多样性强化数理逻辑、代码仓库(如GitHub)、结构化题库数据训练
API接口特性支持流式输出(通过choices属性访问结果),响应速度快流式输出需调整解析逻辑(如避免直接调用choices属性
参数优化建议提高temperature增强回答多样性,适合创意场降低temperature减少随机性,设置更长max_tokens容纳详细推导
成本对比调用成本较低(输入约0.5元/百万tokens计算资源消耗更大,成本较高(输出约21.9元/百万tokens)

三、适用场景对比

1. 推荐使用 deepseek-chat的场景
  • 通用对话:客服机器人、社交闲聊、多轮信息查询
    示例:回答“如何设置手机VPN?”或生成节日祝福文案。
  • 内容生成:撰写短视频脚本、邮件草稿、多语言翻译
  • 即时响应需求:需快速反馈的低复杂度任务(如天气查询、日程提醒
2. 推荐使用 deepseek-reasoner 的场景
  • 数学与科学问题:解微分方程、几何证明、物理实验步骤规划
    示例:“证明勾股定理”或“估算上海市加油站数量”。
  • 编程与代码:生成可执行代码、调试错误、优化算法效率
  • 专业领域分析:金融风险评估、法律案例逻辑拆解、医学诊断推理

四、测试用例生成效果对比:

​模型deepseek-chatdeepseek-reasoner
需求内容

我有一个商品资料页面的资质上传功能,该功能的需求如下:

1、点击【上传资质】的按钮,页面弹出上传资质的弹窗

2、上传资质弹窗有一个拖拽区域,可以拖拽文件到该区域进行上传

3、上传的文件类型有图片或文件夹格式

4、上传弹窗的底部文案说明显示为"1、商品资质文件的图片格式为:PNG、JPG、JPEG格式,最小像素为100*100像素,最大像素为20000*20000像素,图片大小不超过5MB 2、商品资质支持的文件为PDF文件,限制10个"

5、上传文件成功或失败,都会有提示文案信息弹出: 上传图片成功;支持图片上传:png, jpg, jpeg 格式;文件类型支持上传:pdf 格式;最多上传 10 个 PDF文件;图片分辨率需在 100 x 100 ~ 20000 x 20000 之间,请重新上传!;单个图片大小不能超过 5 MB;

我有一个商品资料页面的资质上传功能,该功能的需求如下:

1、点击【上传资质】的按钮,页面弹出上传资质的弹窗

2、上传资质弹窗有一个拖拽区域,可以拖拽文件到该区域进行上传

3、上传的文件类型有图片或文件夹格式

4、上传弹窗的底部文案说明显示为"1、商品资质文件的图片格式为:PNG、JPG、JPEG格式,最小像素为100*100像素,最大像素为20000*20000像素,图片大小不超过5MB 2、商品资质支持的文件为PDF文件,限制10个"

5、上传文件成功或失败,都会有提示文案信息弹出: 上传图片成功;支持图片上传:png, jpg, jpeg 格式;文件类型支持上传:pdf 格式;最多上传 10 个 PDF文件;图片分辨率需在 100 x 100 ~ 20000 x 20000 之间,请重新上传!;单个图片大小不能超过 5 MB;

思考过程

好的,我现在需要根据用户提供的需求和质量规范,生成前端UI测试用例。首先,我需要仔细理解需求中的资质上传功能,包括弹窗显示、拖拽上传、文件类型限制、提示文案等。然后结合参考的质量规范,特别是UI界面测试、导航栏布局、接口校验等方面的内容,来设计测试用例。

首先,分析需求点:

  1. 上传资质的弹窗显示是否正确。
  2. 拖拽区域的功能是否正常,支持图片和PDF。
  3. 文件类型的限制(PNG、JPG、JPEG图片,PDF文件夹,数量限制)。
  4. 底部文案是否符合要求。
  5. 上传成功或失败的提示是否正确。

接下来,结合质量规范中的UI检查项:

  • 界面元素无错别字、变形、重叠等。
  • 弹窗层级不超过两层。
  • 提示文案正确,无代码语言。
  • 日期时间格式统一(虽然这里可能不涉及,但需要注意其他格式)。

测试方法方面,使用等价类划分和边界值分析来处理文件类型、大小、分辨率等。例如,图片的尺寸边界是100x100和20000x20000,文件大小不超过5MB,PDF数量最多10个。需要测试正常值、边界值以及超出限制的情况。

考虑异常情况,如上传不支持的文件类型(如GIF)、超出大小的图片、超过数量的PDF等,确保系统正确处理并给出正确提示。同时,检查拖拽功能是否支持文件与文件夹,以及错误操作时的反馈。

另外,质量规范中提到弹窗最多嵌套两层,需要确认上传弹窗是否遵循。文案检查包括底部说明和提示信息是否正确,是否存在错别字或代码符号。

最后,根据这些分析,设计具体的测试用例,覆盖所有功能点和质量要求,确保优先级合理(如P1为基本功能,P2-P4为边界和异常情况)。

​输出内容
生成效果对比

可以发现:它会生成需求上的每个点,只要需求写了这个内容,基本都会覆盖

可以发现:它会进行思考,分析边界、异常场景,也会把测试用例进行整合

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深蓝2019

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值