利用知识蒸馏缩小模型规模
1. 知识蒸馏简介
在模型部署中,模型的大小和推理延迟是关键考量因素。不同硬件上运行模型的平均延迟值有所差异,例如在GPU上进行推理通常能获得更好的性能,因为GPU支持批量处理。对于模型压缩,知识蒸馏是一种通用方法,旨在训练一个较小的学生模型来模仿较大、较慢但性能更好的教师模型的行为。
知识蒸馏最初于2006年在集成模型的背景下被提出,后来在2015年的一篇著名论文中被推广到深度神经网络,并应用于图像分类和自动语音识别任务。随着预训练语言模型的参数数量不断增加,知识蒸馏已成为压缩这些大型模型、使其更适合构建实际应用的流行策略。
2. 微调中的知识蒸馏
在监督任务(如微调)中,知识从教师模型“蒸馏”到学生模型的主要思路是,用教师模型的“软概率”分布来增强真实标签,为学生模型提供额外的学习信息。例如,如果BERT-base分类器对多个意图分配了高概率,这可能表明这些意图在特征空间中彼此接近。通过训练学生模型模仿这些概率,目标是提取教师模型学到的一些“暗知识”,即仅从标签中无法获得的知识。
数学上,具体实现方式如下:
- 假设将输入序列$x$输入教师模型,生成对数几率向量$\mathbf{z} x = [z {1x}, …, z_{Nx}]$。可以通过应用softmax函数将这些对数几率转换为概率:
[p_i(x) = \frac{\exp(z_{ix})}{\sum_j \exp(z_{jx})}]
- 然而,在许多情况下,教师模型会将高概率分配给一个类别,而其他类别概率接近零,此时教师模型提供的额外信息有限。因此,在应用softmax之前,使用温度超参数$T$对对数几率进行
超级会员免费看
订阅专栏 解锁全文
1268

被折叠的 条评论
为什么被折叠?



