AI大模型的区别

原创已于 2025-08-02 14:21:19 修改 · 2.8k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-08-02 10:12:20 首次发布

测试工程师专栏收录该内容

11 篇文章

订阅专栏

最近在fastgpt上搭建使用大模型进行测试用例的生成和调试，发现生成的效果不能满足测试需求，需要提供样本数据给大模型进行训练输出。样本数据需要提供：输入的内容+问题+思考过程+输出,当前调用的大模型工作流使用deepseek_chat模型，无法提供思考过程，所以需要更换大模型。现在大模型的工作流使用的模型是deepseek-reasoner，这个模型可以输出思考过程。因此整理一下AI大模型的区别。这里以【deepseek_chat】模型和【deepseek-reasoner】模型来举例

一、核心定位和能力差异

维度	deepseek-chat	deepseek-reasoner
核心目标	提供自然流畅的对话交互，优化多轮对话体验	专注复杂逻辑推理，擅长多步骤问题拆解与严谨分析
生成风格	输出简洁、口语化，适合直接回答或创意内容生成	分步骤展示思考路径（如“Step 1: 分析问题 → Step 2: 推导过程”），增强可解释性
强项任务	日常问答、多语言翻译、营销文案撰写	数学证明、代码调试、科学建模、法律条文解析
局限性	对需要逻辑推导或数学计算的任务表现较弱	文学创作灵活性不足，开放式对话连贯性稍

二、技术实现差异

技术维度	deepseek-chat	deepseek-reasoner
训练数据	融合通用文本（书籍、网页对话），侧重语言多样性	强化数理逻辑、代码仓库（如GitHub）、结构化题库数据训练
API接口特性	支持流式输出（通过`choices`属性访问结果），响应速度快	流式输出需调整解析逻辑（如避免直接调用`choices`属性
参数优化建议	提高`temperature`增强回答多样性，适合创意场	降低`temperature`减少随机性，设置更长`max_tokens`容纳详细推导
成本对比	调用成本较低（输入约0.5元/百万tokens	计算资源消耗更大，成本较高（输出约21.9元/百万tokens）

三、适用场景对比

1. 推荐使用 `deepseek-chat`的场景

通用对话：客服机器人、社交闲聊、多轮信息查询
示例：回答“如何设置手机VPN？”或生成节日祝福文案。
内容生成：撰写短视频脚本、邮件草稿、多语言翻译
即时响应需求：需快速反馈的低复杂度任务（如天气查询、日程提醒

2. 推荐使用 `deepseek-reasoner` 的场景

数学与科学问题：解微分方程、几何证明、物理实验步骤规划
示例：“证明勾股定理”或“估算上海市加油站数量”。
编程与代码：生成可执行代码、调试错误、优化算法效率
专业领域分析：金融风险评估、法律案例逻辑拆解、医学诊断推理

四、测试用例生成效果对比：

模型	deepseek-chat	deepseek-reasoner
需求内容	我有一个商品资料页面的资质上传功能，该功能的需求如下： 1、点击【上传资质】的按钮，页面弹出上传资质的弹窗 2、上传资质弹窗有一个拖拽区域，可以拖拽文件到该区域进行上传 3、上传的文件类型有图片或文件夹格式 4、上传弹窗的底部文案说明显示为"1、商品资质文件的图片格式为：PNG、JPG、JPEG格式，最小像素为100100像素，最大像素为2000020000像素，图片大小不超过5MB 2、商品资质支持的文件为PDF文件，限制10个" 5、上传文件成功或失败，都会有提示文案信息弹出：上传图片成功；支持图片上传：png, jpg, jpeg 格式；文件类型支持上传：pdf 格式；最多上传 10 个 PDF文件；图片分辨率需在 100 x 100 ~ 20000 x 20000 之间，请重新上传！；单个图片大小不能超过 5 MB；	我有一个商品资料页面的资质上传功能，该功能的需求如下： 1、点击【上传资质】的按钮，页面弹出上传资质的弹窗 2、上传资质弹窗有一个拖拽区域，可以拖拽文件到该区域进行上传 3、上传的文件类型有图片或文件夹格式 4、上传弹窗的底部文案说明显示为"1、商品资质文件的图片格式为：PNG、JPG、JPEG格式，最小像素为100100像素，最大像素为2000020000像素，图片大小不超过5MB 2、商品资质支持的文件为PDF文件，限制10个" 5、上传文件成功或失败，都会有提示文案信息弹出：上传图片成功；支持图片上传：png, jpg, jpeg 格式；文件类型支持上传：pdf 格式；最多上传 10 个 PDF文件；图片分辨率需在 100 x 100 ~ 20000 x 20000 之间，请重新上传！；单个图片大小不能超过 5 MB；
思考过程	无	好的，我现在需要根据用户提供的需求和质量规范，生成前端UI测试用例。首先，我需要仔细理解需求中的资质上传功能，包括弹窗显示、拖拽上传、文件类型限制、提示文案等。然后结合参考的质量规范，特别是UI界面测试、导航栏布局、接口校验等方面的内容，来设计测试用例。首先，分析需求点：上传资质的弹窗显示是否正确。拖拽区域的功能是否正常，支持图片和PDF。文件类型的限制（PNG、JPG、JPEG图片，PDF文件夹，数量限制）。底部文案是否符合要求。上传成功或失败的提示是否正确。接下来，结合质量规范中的UI检查项：界面元素无错别字、变形、重叠等。弹窗层级不超过两层。提示文案正确，无代码语言。日期时间格式统一（虽然这里可能不涉及，但需要注意其他格式）。测试方法方面，使用等价类划分和边界值分析来处理文件类型、大小、分辨率等。例如，图片的尺寸边界是100x100和20000x20000，文件大小不超过5MB，PDF数量最多10个。需要测试正常值、边界值以及超出限制的情况。考虑异常情况，如上传不支持的文件类型（如GIF）、超出大小的图片、超过数量的PDF等，确保系统正确处理并给出正确提示。同时，检查拖拽功能是否支持文件与文件夹，以及错误操作时的反馈。另外，质量规范中提到弹窗最多嵌套两层，需要确认上传弹窗是否遵循。文案检查包括底部说明和提示信息是否正确，是否存在错别字或代码符号。最后，根据这些分析，设计具体的测试用例，覆盖所有功能点和质量要求，确保优先级合理（如P1为基本功能，P2-P4为边界和异常情况）。
输出内容
生成效果对比	可以发现：它会生成需求上的每个点，只要需求写了这个内容，基本都会覆盖	可以发现：它会进行思考，分析边界、异常场景，也会把测试用例进行整合