漫画趣解：一文搞懂模型蒸馏！

最新推荐文章于 2025-04-27 14:42:49 发布

原创最新推荐文章于 2025-04-27 14:42:49 发布

· 1k 阅读

·

18

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #模型蒸馏

深度学习专栏收录该内容

26 篇文章

订阅专栏

最近，伴随着DeepSeek的火爆，「模型蒸馏」这个专业名词，也频繁出现在大众视野。

什么是模型蒸馏呢？

“模型蒸馏”就是把大模型学到的本领，用“浓缩”的方式教给小模型的过程，在保证一定精度的同时，大幅降低运算成本和硬件要求。

大模型：像一位见多识广、知识储备庞大的“大教授”，无所不知，但是“供养”他很贵。

不仅培养他的过程很耗时耗力（训练成本高），请他过来讲课成本也很高，要有很大一笔安家费（部署模型的硬件基础设施，甚至数据中心），还要支付超高的课时费（推理成本高）。

小模型：相当于一枚小学生，知识面非常有限，但是胜在没教授那么大谱，给个板凳坐着就够了（部署成本低，推理成本低）。

小模型想要拥有跟大模型完全一样的能力是不现实的，毕竟一分钱一分货。

但是我们可以让大模型教小模型一些基本的解题思路，让学生和老师一样思考问题。

教授会100种解题思路，挑两三种不错的教给小学生，让小学生照葫芦画瓢。

这个解题思路转移的过程，其实就是模型蒸馏。

以DeepSeek发布的六个蒸馏模型为例，满血版671B参数量的DeepSeek R1就是“教授模型”。

而教授模型针对不同尺寸的学生模型进行知识蒸馏，这些学生模型包括↓

看，前几天让大家本地安装的那些模型，其实就是从DeepSeek R1这个老师蒸馏得到的，每个学生都从老师身上学到了些“三脚猫”功夫。

因为学生模型的初始资质不同，所以得到的蒸馏模型能力也不同。

总之，脑容量越大（权重数/参数量），能力就越强，就越接近老师的水平。

那么，模型蒸馏具体是怎么干的呢？

简单说，就是老师做一遍，学生跟着学。

但针对每个输入的问题，老师不会直接给出确定答案，而是给出解题思路（俗称软标签）。

比如，输入一张猫的照片给老师模型，老师不会直接给出答案：这是猫，而是给出一组概率分布，告诉学生，这张图可能是什么。

老师这么干，就是为了让学生具备举一反三、触类旁通的能力，用概率分布来对应各种类别的相似程度。

如果只告诉学生这是猫，学生就不知道它和老虎有多少差别。通过这种有概率分布的软标签，学生就知道了老师是如何判断、如何区分。

接下来，需要建立小模型的学习标准（综合损失函数）。

老师虽然NB，但小模型在学习的时候，并不会完全照搬老师的思路。

它会结合自己原有数据集中的硬标签（猫就是猫、狗就是狗），再参考老师的答案，最终给出自己的判断。

所以，学生模型既要参考“教授给的学习笔记”（软标签），又要结合“妈妈给的判断”（原有监督学习中的硬标签）。

实操中，用“蒸馏损失”来衡量学生模型与教授模型输出结果的差异。用“真实监督损失”来衡量学生模型对基本是非问题的判断。

然后，再设定一个平衡系数（α）来调节这两种损失，达到一个最优效果。

说白了，学生模型要尽量模仿教授模型的行为，蒸馏损失越小越好，但是又不能学傻了，基本的是非问题都答不对。

标准确定后，就可以进入正式的蒸馏训练了。

❶把同一批训练样本分别输入到学生模型和教授模型；

❷根据硬标签和软标签，对比结果，结合权重，得到学生模型最终的损失值；

❸对学生模型进行参数更新，以得到更小的损失值。

不断重复这个过程❶→❷→❸，就相当于反复刷题，每刷一轮，就找找学生答案和老师答案的差距，及时纠正。

经过多轮以后，学生的知识就会越来越扎实。

最终，蒸馏得到的小模型，尽量复制大模型的智慧，同时保持自己身轻如燕的优势。

这样，学生模型就可以作为课代表，独立带班，不需要教授坐镇了。

扩展阅读

一、关于不同的蒸馏路线

前面讲的这种模型蒸馏，只是最常见、最通用的一种方式，叫做知识蒸馏，也叫输出层蒸馏。

相当于老师直接告诉你最后的答案，学生只需要抄作业，模仿老师的答案就行。

这种方式操作起来最简单，即便教师模型不开源，你拿不到教师模型，只要能调用他的API，看到老师的知识输出，就可以模仿他，蒸馏出自己的小模型。

所以，有些模型比如GPT4，是明确声明不允许知识蒸馏的，但只要你能被调用，就没法避免别人偷师。

坊间传闻，业界大模型厂商之间，都存在互相蒸馏的操作，正所谓“互相模仿、共同进步”

。

除了输出层蒸馏，还有中间层蒸馏（也叫特征层蒸馏），不仅学到最终判断的结论，还学习老师对图像/文本的内部理解，更深入地继承老师的“知识结构”。

相当于学生不光看老师的最终答案，还要看老师的解题过程或中间步骤，从而更全面地学到思考方法。

但这种蒸馏方案，操作难度较高，通常需要教师模型允许，甚至主动配合，适用定制化的项目合作。

不过现在也可以通过一些手段来获取教师模型的推理轨迹（Reasoning Traces），比如使用特殊构造的提示词来诱导老师逐步返回推理，得到推理轨迹。

同时随着各种推理模型的推出，有些推理模型的API本身就支持返回推理轨迹，比如Google Gemini2.0 Flash，DeepSeek等等。

二、关于蒸馏、微调和RAG

这三种方法，都是优化的大模型的手段，但是实现路径和应用场景不同。

蒸馏：是学生通过模仿老师的解题思路，达到和老师相似的知识水平。

适用于将大模型的能力迁移到小模型上，以适配更低端的算力环境。（比如在企业私有云、个人电脑甚至手机、边缘终端上）

微调：又叫精调，相当于学生意识到自己某门课有短板，然后自己找参考书恶补了一下，从而补上短板。

适用于特定场景下，用特定数据集对通用模型进行小规模训练。比如通用基础模型对医疗不大懂，就用医疗数据集给它开小灶，让他变身医疗专家模型。

RAG：直译过来叫做“检索增强生成”。相当于这题我不会，但是我有“小抄”，我回答的时候，就看一眼小抄，然后再综合我脑子里的已有知识，进行回答。

RAG，不是训练，不改变大模型的“脑回路”，但可以作为外挂，提升大模型回答问题的精准性。适用于企业自身积累了大量知识库文档，通过RAG的方式，与大模型关联。

这样，大模型在回答问题的时候，会先检索知识库，进行精准回答。

三、举两个现实的例子

举个例子，现在特大号公众号后台的自动回复，其实就是腾讯混元大模型，通过RAG的方式，连接了特大号所有的历史文章，作为知识库使用。

当你提问的时候，它就会检索这些历史文章，然后再回答问题。

再举个例子，前几天被热传的李飞飞团队仅花费50美元，就训练出一个比肩ChatGPT o1和DeepSeek R1的模型，其实是一种误读。

李飞飞团队的s1模型，其实是基于通义的开源模型Qwen2.5-32B进行的微调，而微调所用的数据集，其中一部分蒸馏自Google Gemini 2.0 Flash Thinking。

所以，这个模型的诞生，是先通过知识蒸馏，从Gemini API获取推理轨迹和答案，辅助筛选出1000个高质量的数据样本。

然后，再用这个数据集，对通义Qwen2.5-32B进行微调，最终得到性能表现不错的s1模型。

这个微调过程，消耗了50美元的算力费用，但这背后，却是Gemini和Qwen两大模型无法估量的隐形成本。

这就好比，你“偷了”一位名师解题思路，给了一个学霸看，学霸本来就很NB，现在看完“思路”，变得更NB了。

严格来讲，Gemini 2.0作为闭源商业模型，虽然支持获得推理轨迹，但原则上是不允许用作蒸馏的，即便蒸馏出来也不能商用。不过如果仅是发发论文、做做学术研究、博博眼球，倒也无可厚非。

当然，不得不说，李的团队为我们打开了一种思路：我们可以站在巨人的肩膀上，用四两拨千斤的方法，去做一些创新。

比如，DeepSeek是MIT开源授权，代码和权重全开放，而且允许蒸馏（且支持获取推理轨迹）。

那么对于很多中小企业来讲，无异于巨大福利，大家可以轻松通过蒸馏和微调，获得自己的专属模型，还能商用。

GenAI的普惠革命时代，恐怕真的来了。

参考来源：漫画趣解：一口气搞懂模型蒸馏！

博客等级

码龄8年

177
原创

3467
点赞

3253
收藏

4774
粉丝

关注

私信

热门文章

分类专栏

AI新闻 13篇
大模型 29篇
Embedding 2篇
RAG 14篇
ta的看法 3篇
MCP 6篇
Function Calling 1篇
Agent 5篇
多模态 6篇
论文阅读 5篇
推荐系统 3篇
知识图谱 2篇
模型量化 2篇
竞赛 4篇
深度学习 26篇
CV 8篇
工具 7篇
人工智能 9篇
机器学习 6篇
强化学习 2篇
智能体 2篇
ChatGPT 1篇
爬虫 1篇
硬件 1篇

展开全部收起

上一篇：: 为什么Qwen能自我改进推理，Llama却不行？

下一篇：: r1-reasoning-rag：一种新的 RAG 思路

最新评论

华为 MRAG：多模态检索增强生成技术论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
智源开源多模态向量模型BGE-VL：多模态检索新突破
TGITCIC: 对呀，中文的话得要等……我就怕这个项目最后不维护！目前使用的也只有图收图！还有：当混合时text部分不能超过77token（我在用的是bge-vl-large），另外dimension是768
智源开源多模态向量模型BGE-VL：多模态检索新突破
X.Cristiano: 我对比过，但我们是亚马逊的，预料都是对比的英文；比我们之前用的minilm要好些
智源开源多模态向量模型BGE-VL：多模态检索新突破
TGITCIC: 你试过么？不用python临时文件别想做到！源码里写死了物理路径传入！并发不是很好中文官方自己都承认了不识别同时翻看了源码中文没咋训练，目前只是验证环节，等吧，估计要再等三四个月
智源开源多模态向量模型BGE-VL：多模态检索新突破
X.Cristiano: 1、数据来源： 1.1 开放域图像：MegaPairs 使用开放域图像作为基础数据源。这些图像来自一个大规模的图像语料库，例如 RecapDataComp-1B 数据集，该数据集包含 2000 万张带标题的图像。 1.2多模态语言模型（VLM）和大型语言模型（LLM）：用于生成图像对之间的关系描述和伪检索指令。按理说有中文，只是中文占比比较少，效果相对差。 2、传入的对象如果想是base64这种格式，修改一下源码也能实现，类似openai包对话图片的一样。

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。