模型压缩笔记2：模型蒸馏

最新推荐文章于 2025-04-11 21:30:00 发布

饭碗、碗碗香

最新推荐文章于 2025-04-11 21:30:00 发布

阅读量349

点赞数 3

分类专栏：计算机视觉深度学习模型优化文章标签：笔记人工智能深度学习计算机视觉

版权

11 篇文章

订阅专栏

9 篇文章

订阅专栏

6 篇文章

订阅专栏

模型压缩

深度神经网络的缺点是计算量太大，研究人员对此的优化有两个方面

常用程度：量化 > 蒸馏 > 剪枝
量化：需要一定的硬件支持

模型蒸馏是一种将大型、复杂模型（教师模型）的知识转移到小型、简单模型（学生模型）上的技术。
模型蒸馏是将一个复杂的大模型（通常称为教师模型）压缩成一个较小的模型（称为学生模型），通过引导学生模型模仿教师模型的输出（通常是教师模型的软标签）来训练学生模型。软标签包含了更多的类别信息，使得学生模型能够学习到教师模型的知识，而不仅仅是硬标签（即地面真实标签）。
蒸馏过程：
- 知识转移: 教师模型先进行训练，然后在推理阶段生成软标签。学生模型在训练时不仅学习硬标签，还学习教师模型生成的软标签。
- 损失函数: 学生模型的损失函数通常包含两部分：硬标签的交叉熵损失和软标签的交叉熵损失。软标签通常使用更高的温度参数来平滑输出分布。
蒸馏这个过程通常包括以下步骤：
- 训练教师模型：首先训练一个大型、高精度的模型。
- 生成软标签：使用教师模型生成软标签（即类别的概率分布），这些软标签包含了教师模型关于数据分布的信息。
- 训练学生模型：学生模型同时学习真实标签和软标签，通过这种方式，学生模型能够学习到教师模型的知识。

部署在资源受限环境中: 例如移动设备或边缘设备，蒸馏模型可以在保持较好性能的同时显著减少计算资源的消耗。
多任务学习: 通过蒸馏，学生模型可以从多个教师模型中学习不同的任务，这样学生模型可以同时执行多项任务。
模型压缩: 在实际应用中，将大模型压缩成小模型而保持性能不显著下降，对于降低存储需求和提高推理速度非常有利。在不牺牲太多性能的情况下减小模型大小，便于在移动和嵌入式设备上部署。
模型加速：小型模型通常具有更快的推理速度，适用于需要快速响应的应用。