
知识蒸馏
文章平均质量分 84
Law-Yao
数字信号处理与人工智能相关的软硬件系统实现工作。
展开
-
Decoupled Knowledge Distillation——目标分布与非目标分布相解耦
传统KD loss中Teacher的目标概率越高,NCKD越被抑制;然而,单独使用TCKD鲜有收益,而在某些场景下单独使用NCKD、可获得比TCKD更好的效果(详见论文的Ablation分析);并且,TCKD主要迁移难例相关的知识,NCKD则能够真正反映暗知识(Dark knowledge)。通过将网络Classification Head预测的概率分布、解耦为目标分布与非目标分布,并分别计算二者的蒸馏Loss(Teacher的预测输出亦作相同解耦),然后进行加权求和获得新的蒸馏Loss。原创 2022-08-19 21:30:37 · 1815 阅读 · 0 评论 -
Generative Data-free Quantization——生成式无数据训练后量化方法
前言针对深度学习模型的边缘、移动端设备部署,模型量化已经成为必不可少的技术手段,一方面可缓解模型存储、运行时内存的Overhead(例如INT8量化的理论压缩比为4倍),另一方面通过专用整形计算单元或加速指令可实现推理加速(例如NV GPU的TensorCore单元)。出于用户隐私与数据安全考虑,大多数场景应用仅提供少量无标注数据以支持Label-freePTQ,或者不提供任何数据。在用户不提供任何数据时,Data-free Quantization需要借助Pre-trained Mode...原创 2022-05-15 21:52:44 · 1914 阅读 · 0 评论 -
Focal and Global Knowledge Distillation——目标检测网络的知识蒸馏
Paper地址:https://arxiv.org/abs/2111.11837GitHub链接:https://github.com/yzd-v/FGD方法FGKD(Focal and Global Knowledge Distillation)通过Focal distillation与Global distillation的结合,兼顾了Instance-level信息、Spatial/Channel Attention以及全局相关性信息。首先定义前背景分离Mask、Attenti原创 2022-05-01 22:44:04 · 1536 阅读 · 3 评论 -
知识蒸馏(Knowledge Distillation)
1、Distilling the Knowledge in a Neural NetworkHinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏(暗知识提取)的概念,通过引入与教师网络(teacher network:复杂、但推理性能优越)相关的软目标(soft-target)作为total loss的一部分,以诱导学...原创 2018-06-04 16:55:38 · 184828 阅读 · 34 评论