20、利用知识蒸馏缩小模型规模

最新推荐文章于 2025-10-21 07:00:00 发布

zero1

最新推荐文章于 2025-10-21 07:00:00 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：从理论到实践文章标签：知识蒸馏模型压缩微调

本文链接：https://blog.youkuaiyun.com/zero1/article/details/152595791

解密Transformer：从理论到实践专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用知识蒸馏缩小模型规模

1. 知识蒸馏简介

在模型部署中，模型的大小和推理延迟是关键考量因素。不同硬件上运行模型的平均延迟值有所差异，例如在GPU上进行推理通常能获得更好的性能，因为GPU支持批量处理。对于模型压缩，知识蒸馏是一种通用方法，旨在训练一个较小的学生模型来模仿较大、较慢但性能更好的教师模型的行为。

知识蒸馏最初于2006年在集成模型的背景下被提出，后来在2015年的一篇著名论文中被推广到深度神经网络，并应用于图像分类和自动语音识别任务。随着预训练语言模型的参数数量不断增加，知识蒸馏已成为压缩这些大型模型、使其更适合构建实际应用的流行策略。

2. 微调中的知识蒸馏

在监督任务（如微调）中，知识从教师模型“蒸馏”到学生模型的主要思路是，用教师模型的“软概率”分布来增强真实标签，为学生模型提供额外的学习信息。例如，如果BERT-base分类器对多个意图分配了高概率，这可能表明这些意图在特征空间中彼此接近。通过训练学生模型模仿这些概率，目标是提取教师模型学到的一些“暗知识”，即仅从标签中无法获得的知识。

数学上，具体实现方式如下：
- 假设将输入序列$x$输入教师模型，生成对数几率向量$\mathbf{z} x = [z {1x}, …, z_{Nx}]$。可以通过应用softmax函数将这些对数几率转换为概率：
[p_i(x) = \frac{\exp(z_{ix})}{\sum_j \exp(z_{jx})}]
- 然而，在许多情况下，教师模型会将高概率分配给一个类别，而其他类别概率接近零，此时教师模型提供的额外信息有限。因此，在应用softmax之前，使用温度超参数$T$对对数几率进行