DeepSeek R1技术报告关键解析(5/10)：知识蒸馏：如何让小模型也能具备强推理能力？

最新推荐文章于 2025-03-29 10:05:50 发布

董董灿是个攻城狮

最新推荐文章于 2025-03-29 10:05:50 发布

阅读量1.5k

点赞数 28

文章标签：人工智能计算机视觉 CNN

本文链接：https://blog.youkuaiyun.com/dongtuoc/article/details/145458307

版权

知识蒸馏（Knowledge Distillation）是一种让小模型从大模型学习的技术，类似于一位资深老师将自己的知识浓缩后，传授给学生。

大模型通常计算量大、推理速度慢，而小模型虽然计算资源消耗更少，但推理能力往往不如大模型。通过知识蒸馏，小模型可以继承大模型的推理能力，同时保持较低的计算成本。

在 DeepSeek-R1 训练过程中，研究人员通过知识蒸馏，让较小的模型也能具备较强的推理能力。例如，DeepSeek-R1-Distill-Qwen-32B 通过蒸馏学习到了 DeepSeek-R1 的推理模式，在多个基准测试上表现优异。

知识蒸馏的基本流程如下：

大模型生成高质量数据
- 让 DeepSeek-R1 生成大量的推理过程，包括数学计算、代码推理等任务的详细答案。
- 这些答案不仅包含最终结果，还包含完整的推理链条，帮助小模型理解解题逻辑。
小模型学习大模型的输出
- 小模型不会直接从零开始训练，而是通过监督微调（Supervised Fine-Tuning, SFT）来模仿大模型的推理过程。
- 通过不断优化，小模型可以逐渐学会像大模型一样进行推理。
优化训练策略
- 研究人员采用不同的方法提升蒸馏效果，例如：
  - 选择高质量的数据进行训练，去除错误或低质量的推理结果。
  - 让小模型专注于某些特定任务，比如数学、代码推理，提高任务特定的推理能力。

通过知识蒸馏，研究人员成功让小模型的推理能力大幅提升。

例如，在 AIME 2024 数学测试中，DeepSeek-R1-Distill-Qwen-32B 的正确率达到了 72.6%，大幅超过传统的小模型。以下是不同模型在多个任务上的对比结果：

任务	QwQ-32B-Preview	DeepSeek-R1-Zero-Qwen-32B	DeepSeek-R1-Distill-Qwen-32B
AIME 2024（数学推理 Pass@1）	50.0%	47.0%	72.6%
MATH-500（数学任务 Pass@1）	90.6%	91.6%	94.3%
GPQA Diamond（复杂问答 Pass@1）	54.5%	55.0%	62.1%