「知识蒸馏全解:从原理到实战」
文章平均质量分 88
知识蒸馏的原理与发展入手讲解,旨在一步步的带大家学会知识蒸馏并体会它的实践作用
厚衣服_3
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第07篇:生成式知识蒸馏(Generative Knowledge Distillation)——当“老师”自己造数据教学生!
利用生成模型(如 GAN、VAE、Diffusion)合成样本,供学生学习教师模型的知识。文本提示生成样本(Prompt KD for vision);后优化 S:用 G 的输出和 T 的输出对 S 进行蒸馏。Diffusion-based 生成 + 蒸馏的新尝试;🔐 数据受限,无法直接共享(如模型压缩后部署);可自适应生成多样性样本,提高学生鲁棒性;零样本蒸馏(Zero-Shot KD);:生成器,输入高斯噪声 z,输出图像;先优化 G:生成可被 T 激活的样本;私有模型压缩(如商业模型转轻量版本);原创 2025-04-22 21:24:17 · 1053 阅读 · 0 评论 -
第08篇:对比学习 + 知识蒸馏(Contrastive Knowledge Distillation)——打破知识对齐的边界!
对比学习是一种无监督表示学习方式,通过以下方式训练模型:“让相似样本更接近,让不相似样本更远离”其核心思想是构建三元组或正负对比对(positive/negative pairs),最大化正样本之间的一致性,最小化负样本之间的相关性。项目说明方法本质表征对齐 + 结构对比损失核心适用场景表征增强、小样本蒸馏、无标签学习代表方法CRD、SimKD、SPKD、MoCo-KD 等对比学习的引入让知识蒸馏不仅限于“值的对齐”,更上升到了结构的认知迁移,为 KD 注入了新的生命力!原创 2025-04-22 21:30:59 · 1128 阅读 · 0 评论 -
第05篇:对抗蒸馏(Adversarial Knowledge Distillation)——让学生“骗过”判别器的秘密
知识蒸馏(Knowledge Distillation, KD)中,学生模型模仿教师模型的输出,学习其“行为”或“特征”。传统 KD 偏重于逐点对齐,比如 Soft Target KD 通过 KL 散度对齐 soft logits,而 Feature-based KD 则是直接对齐中间特征。但这些方式对“整体分布”理解有限。如果把教师当作一个“真实样本的生成器”,那么我们能否训练一个“判别器”来判断学生输出是否“足够像老师”?这正是。原创 2025-04-21 16:13:38 · 1964 阅读 · 0 评论 -
第06篇:多任务与多模态知识蒸馏 —— 教得多,学得全?
多任务蒸馏 ≈压缩多能学生,提升实用性;多模态蒸馏 ≈打通知识维度,提升语义理解能力;未来方向:多模态 LLM(如 GPT-4V)知识迁移到轻量模型;多模态统一表征的蒸馏方法;跨模态对比蒸馏 + 生成蒸馏融合。原创 2025-04-21 16:21:13 · 1217 阅读 · 0 评论 -
第04篇:Relation-based 知识蒸馏 —— 结构关系的传承
前几篇提到的蒸馏方法主要关注:输出蒸馏(Soft Target KD):关注预测结果特征蒸馏(Feature-based KD):关注中间层特征表示而Relation-based 蒸馏建模教师模型内部(或输入之间)数据的结构关系,并让学生模型尽可能重构这些关系。这种方法关注的是样本之间/通道之间/空间之间的结构组织信息,例如“哪些样本更相似”。原创 2025-04-20 22:52:07 · 960 阅读 · 0 评论 -
第03篇:Feature-based 知识蒸馏——中间层特征传递的艺术
相较于上一篇介绍的 Soft Target(输出蒸馏),Feature-based 蒸馏强调的是:让学生模型模仿教师模型中间层的特征表示。这就好比学生不仅要学会“答对题”(预测分类),还要“思考方式一样”(中间表示一致)。✅ Step 2:定义 AT 损失函数✅ Step 3:提取中间特征(hook 方式)# Hook 中间层✅ Step 4:训练流程五、特征蒸馏技巧汇总项建议蒸馏层选择可选 shallow、middle 或 deep layers,建议做 ablation匹配方式。原创 2025-04-20 22:40:29 · 1329 阅读 · 0 评论 -
第02篇:Soft Target 知识蒸馏——原理解析 + PyTorch 实践
传统的监督学习中,标签是 one-hot 编码的,只有一个维度为 1,其余为 0。例如:真实类别是猫(第3类):label = [0, 0, 1, 0, 0]但这并没有告诉模型其它类别之间的“相似度关系”。原创 2025-04-20 22:27:10 · 694 阅读 · 0 评论 -
第01篇:知识蒸馏入门——什么是知识蒸馏?
知识蒸馏是 Hinton 教授等人在 2015 年提出的模型压缩技术,其核心思想是:用一个大型、性能优秀的“教师模型”(Teacher)去指导一个小型“学生模型”(Student)学习,从而使学生模型在保持小体积的同时,获得与教师相当的性能。这种思想就像我们在学校的学习过程:教师不仅传授“标准答案”,更传授“做题思路”、“知识体系”;学生通过模仿教师的“理解方式”而不仅仅是死记硬背,才能成长为一个优秀的学生。原创 2025-04-20 22:17:06 · 997 阅读 · 0 评论
分享