DeepSeek蒸馏技术学习笔记

大模型.

于 2025-03-17 10:36:01 发布

阅读量1.1k

点赞数 12

文章标签：人工智能 word excel transformer 深度学习大模型 deepseek

本文链接：https://blog.youkuaiyun.com/EnjoyEDU/article/details/146308979

版权

按时间线快速回顾 Deepseek 模型的发展历程：

请添加图片描述
DeepSeek 的 “蒸馏”（Distillation）是一种模型压缩和知识迁移技术，其核心思想是将复杂大模型（“教师模型”）的知识传递给更轻量的小模型（“学生模型”）。这个过程就像老师把多年积累的经验提炼成重点知识传授给学生。

以下用接地气的方式详细解释：

一、为什么要做蒸馏？

1、大模型太笨重

类似 GPT-3 的千亿级参数模型，推理需要高性能显卡，成本高、速度慢（好比用重型卡车送快递）。

2、小模型太稚嫩

直接训练小模型效果差，缺乏复杂问题的处理能力（像小学生直接做高考题）。

3、蒸馏的折中方案

保留大模型的能力，但通过"瘦身"让小模型也能胜任，实现"用电动车的成本，达到卡车的运力"。

二、蒸馏的核心原理

1、知识萃取

教师模型对问题的理解（如概率分布、特征关联）被提取出来，不是简单的答案复制。
例如：面对问题"为什么天空是蓝色的？“，教师模型不仅给答案，还会隐含"光的散射原理”"波长关系"等逻辑。

2、模仿学习

学生模型通过模仿教师模型的输出风格和决策逻辑来训练。
类似学生通过观察老师解题的中间步骤（而不仅是最终答案）来学习。

三、DeepSeek 蒸馏的关键技术

请添加图片描述
1、数据动态筛选

不是所有数据都适合蒸馏，系统会筛选教师模型"擅长"的数据（比如逻辑推理题），避开模糊或低质量数据。

2、渐进式蒸馏

分阶段训练：先学基础知识（如语法），再学复杂能力（如推理），类似"先学加减乘除，再学微积分"。

3、损失函数设计

不仅比对答案（硬标签），还比对教师模型输出的概率分布（软标签），捕捉更多细节。
例如：教师模型认为答案A的概率是70%，B是30%，学生需同时拟合这两个数值。

4、结构适配优化

根据学生模型的结构（如层数、注意力头数），调整知识迁移方式，避免"削足适履"。

四、实际效果举例

参数量对比

教师模型：千亿参数 → 学生模型：百亿甚至十亿参数。

性能表现

在特定任务（如代码生成、数学推理）上，学生模型能达到教师模型 90% 以上的效果。

推理成本

推理速度提升 5-10 倍，显存占用减少 80%，适合部署在普通显卡甚至移动端。

五、类比理解

老中医带徒弟

老师傅（大模型）通过病例（数据）传授诊断经验，徒弟（小模型）学习后能独立看诊，但不需要背下所有医书。

菜谱精简

把米其林大厨的复杂菜谱（教师模型），提炼成家常简化版（学生模型），保留核心风味但操作更简单。

总结

DeepSeek 的蒸馏技术本质是"授人以渔"的过程，通过系统性优化，让小模型既能保持轻量化，又能继承大模型的"内功心法"。这种技术不是简单的模型缩小，而是对知识的重新编码和高效传递。

请添加图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】