| 满血版:是原始的高性能模型; 蒸馏版(Distill):是指将大型模型(教师模型)的知识转移到较小的模型(学生模型)中,以保持性能的同时减少计算资源的需求; |-使用DeepSeek-R1完整版作为教师模型,迁移到Qwen/Llama等开源架构(1.5B-70B); |-Qwen/Llama等架构仅作为学生模型的部署载体,而非直接使用这些模型作为教师; 量化技术(FP8/INT8):是通过降低模型参数的精度来减少计算资源消耗。 |
|||
| 对比维度 | 满血版 | 蒸馏版 | 量化技术 |
| 核心技术 | 强化学习驱动推理、长链推理(CoT) , | 模型蒸馏技术迁移推理能力,支持多尺寸迁移(1.5B-70B) | 采用FP8/INT8量化技术,保持性能前提下降低显存占用, |
[笔记.AI]deepseek-r1的不同版本(满血版、蒸馏版、量化)
于 2025-02-10 20:20:58 首次发布

最低0.47元/天 解锁文章
4966

被折叠的 条评论
为什么被折叠?



