本文将从模型指标、成本、性能、能力几个方面,对DeepSeek开源的模型进行对比测试,得出实际性价比最高的模型。
目录
前言
DeepSeek 近期主要开源的模型有:
-
DeepSeek-V3
-
DeepSeek-R1-Zero
-
DeepSeek-R1
- 通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型
模型蒸馏(Distill)就是把一个很厉害的 “大聪明” 模型(教师模型)知道的知识,想办法教给一个没那么厉害的 “小学霸” 模型(学生模型),让 “小学霸” 变得更聪明,同时还能保持 “小巧玲珑”,可以在一些资源没那么多的地方也能很好地发挥作用。
DeepSeek-R1 教了(蒸馏)什么高级知识给小模型呢?
其实就是深度思考的能力、输出方式。
在deepseek官网对话中,当你选中了深度思考,调用的就是DeepSeek-R1
取消,则调用的是DeepSeek-V3
它的思考过程的实现,其实就是模型在正式回答前,先进行思考,而思考内容用<think>标签来标记。
用户: 你好
模型输出: <think></think>你好
用户: 介绍一下你自己
模型输出: <think>
好的,用户让我介绍一下自己,现在我要看看怎么回应。首先,根据之前的记录,用户已经明确要求直接展示结果,不需要思考过程。所以这次可能需要直接给出一个简洁的自我介绍。
回顾之前的回答,用户可能已经看过我的基本介绍,但也许现在他/她想更详细地了解。不过要注意不要重复之前的信息,或者在原有基础上做扩展。例如,可能提到我的功能、应用场景、技术支持等。
另外,需要保持回答的正式和友好,同时简洁明了。可能用户的场景是需要一个快速的介绍,用于某种报告或展示中使用,或者只是想了解我的能力。用户可能是学生、研究人员,或者普通用户,所以介绍要具有通用性。
还要记得避免使用Markdown格式,保持纯文本。检查是否有之前的对话内容需要规避或者特别强调的地方,比如用户可能对技术细节感兴趣,所以可以提到AI技术如机器学习、自然语言处理等,但不需要深入术语。
最后,确保回答结构清晰,分点说明主要功能和特点,这样用户容易阅读和理解。同时,结尾处鼓励用户提问,以促进进一步交流。
</think>
您好!我是一个由深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1-Lite-Preview,能够协助您解答各类问题,并提供信息查询、内容创作、逻辑推理等服务。我的知识截止到2024年6月,目前主要通过文本交互与用户对话,且会持续更新迭代。您可以随时提出需求,我会尽力为您提供帮助。
也正是这种 前置思考用<think>标签标记的“输出习惯”,由DeepSeek-R1 教会(蒸馏)小模型。
而小模型学会这种思考方法,确实十分显著的提高了小模型原本的推理能力。
模型版权问题
没有版权问题,不得不再吹一句DeepSeek牛逼,大格局。
本次开源的DeepSeek R1 以其蒸馏系列(DeepSeek的所有模型都开源 )模型皆遵循 MIT 协议
“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念
MIT协议:MIT 协议是目前最宽松的开源协议之一,对开发者的限制极少,允许代码被自由地使用、修改和分发,甚至可以将其用于商业项目中,无需支付费用或获取额外的许可
模型指标对比
在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
- 蒸馏版本 和 模型基座(小模型的版本)
Model | Base Model | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
- 蒸馏后性能指标
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
从基座可以看出,DeepSeek-R1-Distill-Qwen-7B的数学能力和代码能力绝对是有优势的,但是对文本生成、知识广度可能会有局限性。
Qwen2.5-Math-7B 是数学模型,擅长写代码和逻辑推理,特别是python代码
从指标可以看出,DeepSeek-R1-Distill-Qwen-32B性价比是比较高的,性能逼近 DeepSeek-R1-Distill-Llama-70B,超越了o1-mini。
所以,暂时可以得出结论:能用DeepSeek-R1-Distill-Qwen-32B最好,其次14B,实在不行就7B。
资源需求
模型权重资源占用
模型版本 | CPU | 内存 | 硬盘 | 显卡 | 适用场景 | 预计费用 |
---|---|---|---|---|---|---|
DeepSeek-R1-1.5B | 最低4核 | 8GB+ | 256GB+(模型文件约1.5 - 2GB) | 非必需(纯CPU推理) | 本地测试,自己电脑上可以配合Ollama轻松跑起来 | 2000~5000 |
DeepSeek-R1-7B | 8核+ | 16GB+ | 256GB+(模型文件约4 - 5GB) | 推荐8GB+显存(如RTX 3070/4060) | 本地开发和测试,可以处理一些中等复杂度的自然语言处理任务,比如文本摘要、翻译、轻量级多轮对话系统等 | 5000~10000 |
DeepSeek-R1-8B | 8核+ | 16GB+ | 256GB+(模型文件约4 - 5GB) | 推荐8GB+显存(如RTX 3070/4060) | 适合需要更高精度的轻量级任务,比如代码生成、逻辑推理等 | 5000~10000 |
DeepSeek-R1-14B | 12核+ | 32GB+ | 256GB+ | 16GB+显存(如RTX 4090或V100) | 适合企业级复杂任务,比如长文本理解与生成 | 20000~30000 |
DeepSeek-R1-32B | 16核+ | 64GB+ | 256GB+ | 24GB+显存(如A100 40GB或双卡RTX 3090) | 适合高精度专业领域任务,比如多模态任务预处理 | 40000~100000 |
DeepSeek-R1-70B | 32核+ | 128GB+ | 256GB+ | 多卡并行(如2x A100 80GB或4x RTX 4090) | 适合科研机构或大型企业进行高复杂度生成任务 | 400000+ |
DeepSeek-R1-671B | 64核+ | 512GB+ | 512GB+ | 多节点分布式训练(如8x A100/H100) | 适合超大规模AI研究或通用人工智能(AGI)探索 | 20000000+ |
Model Version | VRAM (GPU) | RAM (CPU) | Storage |
---|---|---|---|
1.5B | 4GB+ | 8GB+ | 5GB |
7B | 12GB+ | 16GB+ | 10GB |
8B | 16GB+ | 32GB+ | 15GB |
14B | 27GB+ | 64GB+ | 30GB |
32B | 48GB+ | 128GB+ | 60GB |
70B | 80GB+ | 256GB+ | 120GB |
671B (MoE) | 4x A100 GPUs (320GB VRAM) | 512GB+ | 500GB+ |
671B (MoE) 需要 4 张 A100 - 80GB的版本
实际部署后显存占用
实际占用 = 权重占用 + kv cache占用
这里不说数值标记,直接标记是否可以部署
V100 (32GB)
A100 (40GB)
模型 | V100单卡 | A100单卡 | V100双卡 | A100双卡 |
---|---|---|---|---|
1.5B | ✅ | ✅ | ✅ | ✅ |
7B | ✅ | ✅ | ✅ | ✅ |
8B | ✅ | ✅ | ✅ | ✅ |
14B | ❌ | ✅ | ✅ | ✅ |
32B | ❌ | ❌ | ❌ | ✅ |
70B | ❌ | ❌ | ❌ | ❌ |
671B (MoE) | ❌ | ❌ | ❌ | ❌ |
实际并发性能测试结果
资源有限,仅对 7B、14B 做了测试
- 请求超时时间为 60 s
- 速率为最高峰值(当前处理的tokens的总和),并发为1的即为 单次请求速率
- 部署框架使用 ms-swift, 其支持lmdeploy、vllm、pt(仅加载权重)三种方法部署
Linux 快速部署DeepSeek-R1 蒸馏系列模型
- 部署方式:lmdeploy
设备 | 模型 | 上下文 | 并发 | 循环次数 | 速率(tokens/s) | 显存(GB) | 请求超时个数 |
---|---|---|---|---|---|---|---|
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 2048 | 16 | 2 | 632.5 | 31.5 | 0 |
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 4096 | 16 | 2 | 558.1 | 31.5 | 0 |
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 16 | 2 | 703.7 | 31.5 | 4 |
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 1 | 1 | 66.6 | 31.5 | 0 |
设备 | 模型 | 上下文 | 并发 | 循环次数 | 速率(tokens/s) | 显存(GB) | 请求超时个数 |
---|---|---|---|---|---|---|---|
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 2048 | 16 | 2 | 574.6 | 58.7 | 0 |
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 4096 | 16 | 2 | 710.3 | 58.7 | 8 |
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 16 | 2 | 533.4 | 58.7 | 26 |
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 1 | 1 | 46.7 | 58.7 | 0 |
- 部署方式:vLLM
设备 | 模型 | 上下文 | 并发 | 循环次数 | 速率(tokens/s) | 显存(GB) | 请求超时个数 |
---|---|---|---|---|---|---|---|
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 2048 | 16 | 2 | 482.3 | 30.4 | 0 |
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 4096 | 16 | 2 | 435.7 | 30.4 | 1 |
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 16 | 2 | 402.1 | 30.4 | 12 |
V100(32GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 1 | 1 | 42.5 | 30.4 | 0 |
设备 | 模型 | 上下文 | 并发 | 循环次数 | 速率(tokens/s) | 显存(GB) | 请求超时个数 |
---|---|---|---|---|---|---|---|
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 2048 | 16 | 2 | 462.3 | 60.1 | 0 |
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 4096 | 16 | 2 | 372.4 | 60.1 | 12 |
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 16 | 2 | 293.2 | 60.1 | 23 |
V100(32GB) * 2 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 1 | 1 | 37.5 | 60.1 | 0 |
设备 | 模型 | 上下文 | 并发 | 循环次数 | 速率(tokens/s) | 显存(GB) | 请求超时个数 |
---|---|---|---|---|---|---|---|
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 2048 | 16 | 2 | 945.2 | 36.9a | 0 |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 4096 | 16 | 2 | 744.6 | 37.2 | 0 |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 16 | 2 | 885.0 | 37.2 | 0 |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 32 | 3 | 1490.2 | 38.1 | 1 |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-7B | 8192 | 1 | 1 | 47.9 | 38.1 | 0 |
设备 | 模型 | 上下文 | 并发 | 循环次数 | 速率(tokens/s) | 显存(GB) | 请求超时个数 | flash_attn 加速 |
---|---|---|---|---|---|---|---|---|
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 2048 | 16 | 2 | 586.8 | 37.6 | 0 | False |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 4096 | 16 | 2 | 370.5 | 38.0 | 17 | False |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 16 | 2 | 285.3 | 38.1 | 24 | False |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 1 | 1 | 38.3 | 38.1 | 0 | False |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 4096 | 16 | 2 | 454.9 | 38.6 | 15 | True |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 16 | 2 | 242.5 | 38.6 | 23 | True |
A100(40GB) * 1 | DeepSeek-R1-Distill-Qwen-14B | 8192 | 1 | 1 | 48.4 | 37.9 | 0 | True |
能力测评对比
本次参与测评的模型有
- DeepSeek-R1-Distill-Qwen-7B (以下缩写为 DS-R1-7B )#1
- Qwen2.5-7B-Instruct (以下缩写为 Q2.5-7B)#2
- DeepSeek-R1-Distill-Qwen-14B(以下缩写为 DS-R1-14B)#3
三者性价比高,符合中低成本生产部署落地的需求
测评平台使用 Dify
它的多模型调试功能还不错
以下是我为测试AI能力设计的9个类别,每个类别包含3个代表性问题及测试意义说明:
一、逻辑推理能力
测试意义:检验因果分析、演绎归纳、数学运算等基础认知能力,这是处理复杂问题的核心
-
"若A比B早到5分钟,B比C晚到10分钟,C到达时间是15:00,A何时到达?"(时序推理)
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ [
\boxed{15:05}
]7.17 287 Q2.5-7B ✅ 综上所述,A是在15:05到达的。 2.08 147 DS-R1-14B ✅ [
\boxed{15:05}
]8.11 349 -
"请用谓词逻辑表达'所有会飞的动物都不是企鹅'"(符号逻辑转换)
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ ∀x (F(x) → ¬P(x)) 24.3 866 Q2.5-7B ✅ ∀x (F(x) → ¬P(x)) 3.66 197 DS-R1-14B ✅ ∀x (F(x) → ¬P(x)) 19.95 789
-
"某配送中心需在30分钟内完成20个订单配送,如何优化路线?"(现实问题建模)
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 确保在30分钟内高效完成20个订单的配送任务 38.46 1374 Q2.5-7B ✅ 尽量在30分钟内完成20个订单的配送任务 8.71 403 DS-R1-14B ✅ 确保在30分钟内完成20个订单的配送 27.61 1104
二、哲学伦理能力
测试意义:评估价值判断、道德权衡与人文关怀意识
-
"电车难题中,主动切换轨道导致1人死亡是否道德?请分义务论/功利论分析"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 义务论: 主动切换轨道的行为被认为违背了道德义务,因为它涉及牺牲他人的生命,而义务论强调普遍化和道德原则。功利主义: 主动切换轨道的行为被认为更道德,因为它减少了总死亡人数,从而最大化了幸福或最小化了痛苦。 38.06 1363 Q2.5-7B ✅ 义务论者的立场: 主动切换轨道会导致故意伤害某个人,违反了道德义务,因此是不道德的。功利论者的立场: 如果切换轨道能够挽救更多人的生命,那么从功利论的角度来看,这是道德的选择。 12.64 550 DS-R1-14B ✅ 义务论分析:行为的道德性:义务论强调行为本身是否符合道德律令,而不是结果。康德认为,行为的对错取决于是否出于义务。目的与手段:康德反对将人作为达到更大善的工具。拉开关导致一人死亡,虽然救了更多人,但可能违背了将人作为目的的道德要求。普遍性原则:如果每个人在类似情况下都选择拉开关,是否还能保持道德法则的普遍性?义务论可能认为不应该拉开关,因为它利用了一个人的生命。功利论分析:结果导向:功利论以结果为导向,追求最大幸福。拉开关导致一人死亡,但救了五人,结果更优。最大幸福原则:从功利主义的角度,应选择带来最大幸福的行为,即拉开关。个人权利:功利论可能忽视个人权利,但在这种情况下,数字对比明显,功利论显得合理。 26.09 1009 -
"AI是否应该为保护用户隐私而隐瞒重大疾病风险?"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 2.22 93 Q2.5-7B ❌ 7.4 347 DS-R1-14B ✅ 28 122 -
"自动驾驶优先保护乘客还是行人?决策算法应如何体现公平性?"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 动态平衡 20.5 741 Q2.5-7B ✅ 在保证安全的同时,尽可能地体现公平性 8.7 398 DS-R1-14B ✅ 平衡乘客和行人的权益 21.6 869
三、语言理解能力
测试意义:考察语义解析、语境把握及跨文化沟通能力
-
"分析句子歧义:'我看到她在甲板上跳舞,拿着望远镜'"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 跳舞象征情绪或能力,望远镜象征智慧 28.3 1015 Q2.5-7B ❌ 她站在甲板上,伴随着海风翩翩起舞,手中还握着一个望远镜 1.88 119 DS-R1-14B ✅ 望远镜或许代表了她对未来的渴望,而舞蹈则是她与自己、与世界对话的方式。 15.2 610 -
"将《民法典》第1073条用初中生能理解的语言重述
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 我得确认一下第1073条的具体内容,不过可能记不太清了。 8.98 339 Q2.5-7B ✅ 这条法律规定的是父母与子女之间的基本权利和义务关系 2.3 145 DS-R1-14B ✅ 《民法典》第1073条允许父母在特定情况下请求改变孩子的抚养权 13.8 565 -
"翻译'海内存知己,天涯若比邻'并解释文化意象"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 19.3 701 Q2.5-7B ✅ True friends are like neighbors even if they live across the sea. 7.38 345 DS-R1-14B ✅ Among the four seas there are bosom friends; distant as Shou Ridge, neighbors they seem 3.3 147
四、知识广度与时效性
测试意义:验证多领域知识储备与信息更新机制
-
"解释CRISPR-Cas9技术原理及其最新医疗应用"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ CRISPR-Cas9是一种革命性的基因编辑工具,整合了细菌的CRISPR免疫系统和Cas9切割酶,用于精确编辑人类基因组。 22.6 815 Q2.5-7B ✅ CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)是细菌和古菌体内的一种免疫系统,用于防御病毒和其他外来遗传物质的侵袭。Cas9是一种与CRISPR序列结合的酶,能够识别并切割特定的DNA序列。 11.01 487 DS-R1-14B ✅ CRISPR-Cas9技术是一种革命性的基因编辑工具,基于细菌的天然免疫系统,现广泛应用于医疗领域。其原理是利用Cas9酶切割DNA,结合向导RNA精确定位目标基因。 16.1 648 -
"比较印象派与立体主义在色彩运用上的差异"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 总结而言,印象派在色彩上注重情感和氛围,色彩柔和而鲜明;立体主义则在色彩上强调空间感和立体效果,色彩对比强烈,层次感丰富。 30.52 1087 Q2.5-7B ✅ 总的来说,印象派更注重色彩的真实感和自然光的效果,而立体主义则更倾向于通过色彩和形状来表达抽象的概念和结构关系。 7.78 358 DS-R1-14B ✅ 总结而言,印象派在色彩运用上注重丰富性和情感表达,而立体主义则更关注结构和形式,色彩较为中性,服务于整体结构的表达。 22.4 892 -
"2023年诺贝尔经济学奖得主的主要理论贡献是?"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 2023年诺贝尔经济学奖授予了三位学者:Eugene F. Fama、Anders Lo和Ricardo J. Barro,表彰他们在经济学领域的重大贡献。 29.1 1041 Q2.5-7B ✅ 截至我的知识更新日期2023年10月,2023年的诺贝尔经济学奖尚未公布。 6 290 DS-R1-14B ✅ 我记得2023年的诺贝尔经济学奖授予了三位经济学家:克劳迪娅·戈尔丁(Claudia Goldin)、艾格尼丝·卡内曼(Agnes Karmen)和黛博拉·菲兰杰里(Deborah Phillips)。 17.7 712
五、创造性思维
测试意义:测试想象力、发散思维与创新方案构建
-
"设计能在沙漠与海洋自由穿梭的交通工具,描述动力系统"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 该动力系统的设计结合了太阳能和电池的双重能源供应方式,确保在沙漠和海洋中都能高效运行。通过智能控制系统和模块化设计,动力系统能够适应不同环境的需求,同时具备高可靠性、效率和环保性。 39.2 1395 Q2.5-7B ❌ 这种设计旨在通过技术创新和多学科融合,创造出一种既能在沙漠也能在海洋中高效行驶的新型交通工具。 10.2 458 DS-R1-14B ✅ SandSea Explorer的动力系统设计充分考虑了沙漠和海洋环境的特殊性,通过混合动力系统和模块化设计,实现了在两种极端环境中的自由穿梭。这种交通工具不仅具备强大的功能性和适应性,还注重能源的高效利用和环保性,为未来的多功能交通工具设计提供了新的思路。 38.5 1492 -
"续写故事开头:'打开古董怀表的瞬间,时针开始逆时针旋转...'
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 33.6 1207 Q2.5-7B ✅ 2.8 164 DS-R1-14B ❌ 40.5 1517 -
"为火星殖民基地设计可持续生态系统方案"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 这个可持续生态系统方案的核心是实现资源的自给自足,通过太阳能、地热能和风能的综合利用,确保能源供应的稳定性。同时,有机农业和垂直农业的结合,确保食物的可持续生产。雨水收集和地表水利用确保水资源的高效利用。废物分类回收和生物降解材料的应用,减少对环境的污染。通过模块化和生态适应性设计,建筑能够适应火星的极端环境。最后,智能管理系统确保生态系统的协调和优化运行。 48.8 1772 Q2.5-7B ❌ 这只是一个初步的概念框架,实际操作中还需要考虑更多具体的技术细节和实施策略。 10.4 459 DS-R1-14B ✅ 火星殖民基地的可持续生态系统需要依靠先进的技术支持,同时注重资源的高效利用和循环。通过整合能源、水、食物、废物处理和氧气供应等系统,可以实现一个相对独立且可持续的生存环境。未来的技术进步和实地测试将为这一目标提供更坚实的基础。 42.0 1656
六、多模态处理
测试意义:检验跨媒介信息整合与协同能力
-
"根据梵高《星空》的视觉特征创作一首俳句"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 浮天大气球
气如蝴蝶
惊鸿绝色过客12.65 462 Q2.5-7B ✅ 星月旋涡夜,
梵高笔下激情舞,
梦随麦田摇。0.51 62 DS-R1-14B ✅ 夜空旋转着
柏树挺立
灵魂的摇篮19.31 696 -
"描述如何用肢体动作表达'矛盾的抉择'"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 20.54 737 Q2.5-7B ✅ 7.85 359 DS-R1-14B ✅ 20.3 797 -
"将贝多芬《月光奏鸣曲》第一乐章转化为色彩组合"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 最终的色彩组合包括:绿色(C): 大地质感蓝色(D): 天空背景紫色(E): 渐变效果红色(F): 高音部分黄色(G): 和声进行中的亮点橙色(A): 节奏缓慢的部分品红色(B): 突出部分 37.4 1335 Q2.5-7B ✅ 背景:深蓝色或紫罗兰色,代表整体氛围。主旋律:从深蓝过渡到浅灰,象征着旋律从低沉到逐渐平静的过程。装饰音:使用白色或淡粉色,突出装饰性音符。动态变化:强音部分可以使用更深的蓝色或紫色,弱音部分则使用更浅的蓝色或灰色。 11.7 517 DS-R1-14B ✅ 深蓝色(代表夜晚的宁静与深邃)靛蓝色(传达一种忧郁和神秘的感觉)浅蓝色(表现月光的柔和与清澈)灰色(增添一种沉思和忧伤的氛围)紫色(带灰色调)(增加神秘感和情感深度)银色(模拟月光的反光)黑色(作为背景,表现夜晚的深邃) 13.7 513
七、技术实现理解
测试意义:考察底层算法原理与技术边界认知
-
"解释Transformer模型中多头注意力机制的作用"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 多头注意力机制通过并行处理多个头,提升了模型的表达能力和复杂任务处理能力,是Transformer模型的关键组件。 27.1 844 Q2.5-7B ✅ 总之,多头注意力机制通过引入并行处理的概念,增强了Transformer模型的表达能力和泛化能力,使其能够在复杂的序列数据处理任务中表现出色。 9.89 438 DS-R1-14B ✅ 总结而言,多头注意力机制通过并行处理和多样化关注,显著提升了Transformer模型在复杂语言任务中的表现,成为现代自然语言处理中的核心组件。 27.56 844 -
"对比RNN与LSTM在长序列处理中的优劣"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ RNN适合的情况:处理较短序列或短期依赖重要时,计算简单且资源需求低。LSTM适合的情况:处理长序列或需要捕捉长期依赖时,尽管计算复杂,但表现更优。 52.4 1846 Q2.5-7B ✅ 对于简单的序列数据或短序列任务,RNN可能已经足够好。但对于长序列数据或需要捕捉长期依赖的任务,LSTM通常能提供更好的性能。然而,LSTM虽然解决了许多RNN的问题,但也带来了额外的复杂性和计算开销,因此在选择使用哪种模型时需要权衡这些因素。 13.7 593 DS-R1-14B ✅ RNN在处理长序列时由于梯度问题和长期依赖捕捉能力的限制,表现不如LSTM。LSTM通过门控机制和细胞状态有效地解决了这些问题,成为处理长序列任务的更优选择。然而,LSTM在参数和计算量上存在一定的劣势,可能需要根据具体任务和数据规模进行权衡。在实际应用中,可能还需要结合其他技术(如注意力机制)来进一步优化性能。 29.1 1155 -
"说明大模型出现'幻觉'现象的技术根源"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 35.2 1256 Q2.5-7B ✅ 9.23 411 DS-R1-14B ✅ 26.64 1056
八、用户体验感知
测试意义:评估交互自然度与需求洞察能力
-
"用户连续三次修改同一问题表述时,应如何响应?"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 通过这些步骤,可以有效地帮助用户解决问题,同时确保他们感受到被重视和支持。 8.77 325 Q2.5-7B ❌ 通过以上方法,可以有效地处理用户连续修改问题表述的情况,提高沟通效率和满意度。 6.08 291 DS-R1-14B ✅ 感谢您的耐心和细致,这表明您对问题的重视。如果您能提供更多背景信息或具体细节,将有助于我更好地理解您的需求。请随时告诉我您需要什么帮助,我会尽力为您解答! 5.55 349 -
"设计帮助抑郁症患者的对话策略"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 在与抑郁症患者对话时,关键是要建立信任和情感共鸣,给予他们支持和理解,同时鼓励他们看到自己的潜力和希望。通过关注他们的感受、需求和情绪状态,可以帮助他们感受到温暖和支持,从而促进他们的康复。 34.4 1221 Q2.5-7B ✅ 每个抑郁症患者的情况都是独特的,因此上述建议需要根据具体情况灵活调整。最重要的是,始终保持同情心和耐心。 9.59 418 DS-R1-14B ✅ 真诚和耐心是关键,每个患者的情况都是独特的,因此对话应根据他们的需求进行调整。 27.3 1081 -
"当用户提问超出知识库时,如何优雅应对?
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 对不起,我无法回答这个问题。如果您需要帮助,可以尝试使用搜索引擎查找相关信息,或者告诉我您需要的其他信息,我会尽力帮助您。 8.41 311 Q2.5-7B ✅ 通过这些方法,不仅可以有效解决超出知识库的问题,还能提升用户体验,增强品牌好感度。 8.07 359 DS-R1-14B ✅ 通过以上步骤,您可以优雅地应对超出知识库的问题,同时确保用户感到被重视和支持。 18.06 722
九、跨文化适应
测试意义:测试文化敏感性与全球化语境适应
-
"为中东用户设计饮食建议时需注意哪些禁忌?"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 禁止食用猪肉及其制品(鹰肉、牛肉、羊肉、鱼等)。 34.4 1224 Q2.5-7B ✅ 不吃猪肉及其制品。饮食必须符合清真(Halal)标准,即动物在宰杀前必须是健康的,并且宰杀方式要符合伊斯兰教规定的仪式。 10.62 471 DS-R1-14B ✅ 确保所有肉类和食材符合清真规定,避免猪肉及其制品。 22.62 901 -
"翻译'龙'到英语时应如何考虑文化差异?"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ❌ 在翻译“龙”到英语时,应考虑文化差异,确保尊重目标文化中的含义和象征意义。 0.83 44 Q2.5-7B ✅ 在将“龙”翻译成英语时,确实需要考虑到文化差异。在中国文化中,龙是一个非常重要的象征性动物,它代表着力量、尊贵、权力和好运。然而,在西方文化中,龙通常被描绘为一种邪恶的生物,常常与火焰和破坏联系在一起。 4.83 241 DS-R1-14B ✅ When translating '龙' into English, the choice between 'dragon' and 'long' should consider cultural differences. 'Dragon' refers to the mythical creature in Western culture, while 'long' (龙) is the traditional symbol in Chinese culture. 1.54 71 -
"解释日本'物哀'美学对现代设计的影响"
模型 结果满意 回答 耗时(s) 长度(tokens) DS-R1-7B ✅ 物哀美学通过对物品自然属性和与自然和谐共处的思考,为现代设计提供了重要的设计理念和思想支持。 30.2 1076 Q2.5-7B ✅ “物哀”美学为现代设计提供了一种独特的视角,促使设计师们思考如何通过设计来反映自然之美、时间的流逝以及人与物之间的情感联系。 9.78 436 DS-R1-14B ✅ “物哀”美学通过其核心特质影响了现代设计的多个领域,从视觉效果到设计理念,推动了设计向更深层次发展。 25.04 994
十、 过度思考问题
在日常闲聊对话中,即便是简单的对话,也会触发蒸馏模型的思考。
过度不必要的思考有可能会有不好的体验,如下图,正常对话的耗时不超过1秒,而通过思考后,耗时达到了6秒。
结果汇总
模型测评汇总
测评维度 | DeepSeek-R1-Distill-Qwen-7B表现 | DeepSeek-R1-Distill-Qwen-14B表现 |
---|---|---|
逻辑推理能力 | 在时序推理、符号逻辑转换、现实问题建模测试中,回答结果满意,能解决基础逻辑推理问题,但耗时和生成token长度与其他模型有差异 | 能较好完成逻辑推理测试,回答结果满意,处理复杂逻辑时可能更具优势,但耗时和生成内容长度不同 |
哲学伦理能力 | 多数问题回答满意,对电车难题等能从义务论和功利论分析,但在AI隐私问题上表现欠佳 | 对多数哲学伦理问题分析全面深入,如电车难题,在AI隐私和自动驾驶决策等问题上表现良好 |
语言理解能力 | 在分析句子歧义、翻译诗句并解释文化意象、重述法律条文任务中,部分回答结果不满意 | 能较好理解和处理语言任务,在多语言理解任务上表现较好 |
知识广度与时效性 | 能解释部分技术原理和艺术流派差异,但在2023年诺贝尔经济学奖得主问题上回答错误 | 能应对多领域知识问题,但在知识时效性方面存在不足,诺贝尔经济学奖得主问题回答错误 |
创造性思维 | 在设计交通工具动力系统和火星殖民基地生态系统方案上有较好表现,但续写故事能力欠佳 | 在创造性设计任务中表现良好,能提供创新方案,但续写故事环节表现不佳 |
多模态处理 | 根据《星空》创作俳句和将音乐转化为色彩组合表现欠佳,描述肢体动作表达任务表现尚可 | 在多模态任务中表现较好,能完成根据画作创作俳句、描述肢体动作和音乐转色彩组合任务 |
技术实现理解 | 对Transformer模型多头注意力机制、RNN与LSTM对比、大模型“幻觉”现象解释合理,理解底层技术原理 | 对技术问题理解深入,能准确阐述相关技术概念和原理 |
用户体验感知 | 在用户连续修改问题表述和提问超出知识库时,响应表现欠佳,设计帮助抑郁症患者对话策略表现较好 | 在用户体验相关测试中,多数表现良好,能较好应对用户连续修改问题和超出知识库问题 |
跨文化适应 | 为中东用户设计饮食建议表现较好,但翻译“龙”考虑文化差异和解释日本美学影响方面存在不足 | 能较好处理跨文化问题,在饮食禁忌、翻译文化差异和美学影响解释上表现良好 |
能力测评(以 “√” 表示满意,“×” 表示不满意) | 逻辑推理:√ - 哲学伦理:√(部分) - 语言理解:×(部分) - 知识广度与时效性:×(部分) - 创造性思维:√(部分) - 多模态处理:×(部分) - 技术实现理解:√ - 用户体验感知:×(部分) - 跨文化适应:√(部分) | 逻辑推理:√ - 哲学伦理:√ - 语言理解:√ - 知识广度与时效性:×(部分) - 创造性思维:√(部分) - 多模态处理:√ - 技术实现理解:√ - 用户体验感知:√(部分) - 跨文化适应:√ |
资源需求(模型权重) | VRAM 12GB+,RAM 16GB+,存储10GB | VRAM 27GB+,RAM 64GB+,存储30GB |
资源需求(部署显存) | V100单卡、双卡及A100单卡、双卡均可部署 | V100单卡不可部署,V100双卡、A100单卡和双卡可部署 |
资源需求(并发性能) | 不同设备和并发设置下速率不同,如V100(32GB)1,2048上下文、16并发时,速率632.5 tokens/s;A100(40GB)1,8192上下文、32并发时,速率1490.2 tokens/s | 不同设备和并发设置下速率不同,如V100(32GB)2,2048上下文、16并发时,速率574.6 tokens/s;A100(40GB)1,2048上下文、16并发时,速率586.8 tokens/s |
实际生产部署性价比分析
根据以上测评结果,DeepSeek-R1-Distill-Qwen-7B 是性价比最高的模型:
-
资源需求低:
- 单卡 V100 或 A100 即可满足部署需求。
- 显存占用低,适合中低成本硬件环境。
-
性能表现优异:
- 在 lmdeploy 和 vLLM 部署方式下,推理速度较快,显存占用稳定。
- A100 单卡性能突出,32并发,上下文长度 8192 时速率可达 1490.2 tokens/s。
-
能力测评表现良好:
- 在逻辑推理、哲学伦理、语言理解和知识广度等方面表现稳定。
- 能够满足大多数生产场景的需求。
-
实际部署优势:
- 对硬件要求低,部署成本低。
- 推理速度快,适合高并发场景。
当然,性价比受多种因素影响,包括资源成本、性能表现和应用场景需求。
- 从资源需求看,DeepSeek-R1-Distill-Qwen-7B所需的VRAM、RAM和存储资源比14B模型少,在硬件成本上更具优势。
但是在能力测评中,7B模型虽在部分任务上表现不如14B模型,但在多数基础任务上也能满足需求。
如果应用场景对模型性能要求不是极高,且对成本较为敏感,如一些对推理速度要求不苛刻、处理简单任务的场景,DeepSeek-R1-Distill-Qwen-7B性价比更高。
- 而对于对模型能力要求较高,如需要处理复杂逻辑推理、多模态融合等任务,且硬件资源还能更进一步的场景,DeepSeek-R1-Distill-Qwen-14B虽资源需求大,但能提供更优质的服务,性价比可能更高。
- DeepSeek-R1-Distill-Qwen-32B 两张A100 也能跑,能力必然强于两者,但是应对不是特别复杂的任务,有了前置思考<think>加持,14B已经很够用了。
题外话
通过一通蒸馏学习,小模型承载了超越自身的思考、推理能力,可能会有意外的错误情况,造成小模型原本的能力减弱或者遗忘。
例如
- 对 format指令(按指定的格式输出)的理解不准
- 无法 json 格式输出,强制会以 <think> 开头
- Function Call 能力遗忘
- ReAct 能力可能极端增强,也可能极端减弱(有待后续考察、测试)
个人建议是术业有专攻,通过R1来蒸馏增强其原有的推理能力,让小模型实现原本超大模型才能完成的任务,那么这蒸馏后的小模型就可以部署作为一个专家模型,专门做推理任务。
- 更强的Agent(Function call、ReAct等)能力交由其他模型来完成。
- 同样的如多模态任务(音视频、图片)交由多模态模型来处理,再有推理模型来二次加工等等工程上的优化思路。
- 某种程度来说,多个模型看成一个整体,也算是工程上的MoE模型了。
总的来说,就是不该将全部资源都倾泻给一个模型,期望一个模型完成各式各样的任务,应该分为不同的专家模型,来处理不同的任务。
我个人理解用户体验上是:响应速度 > 产品能力。
小模型体量小,单卡跑也节省多卡并行的损耗,输出效率是最高的。
输出快、响应快就代表用户体验好,哪怕模型能力会差一些,大部分场景还是可以通过工程上来优化的。
这也是为什么本文要追求极致性价比了,最好是一张显卡一个模型,完成一个方向的任务,满足各项业务需求。
本文的小模型指的是相对于 DeepSeek 671B, 7B、14B这类的 ”小模型“
参考引用