自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【CVPR_2022】Rethinking Knowledge Distillation via Cross-Entropy

论文发现KD蒸馏损失可以看作是CE损失和一个额外损失的组合,且额外损失具有与CE损失相同的形式。额外损失引入了非目标类的知识。额外损失中迫使学生的相对概率逼近教师网络的绝对概率,由于两者的概率和不同,因此难以进行优化。

2023-07-20 16:00:40 318 2

原创 【CVPR_2022】Knowledge Distillation via the Target-Aware Transformer

1.提出了通过目标感知transformer的知识蒸馏方法,使整个学生能够分别模拟教师的每个空间成分。通过提高匹配能力,进而提高知识的蒸馏性能。2.提出了分层蒸馏来转移局部特征和全局依赖性,而不是原始的特征映射。应用于大尺寸的特征映射。

2023-07-20 11:24:17 342 1

原创 【NeuralPS_2022】Efficient Knowledge Distillation from Model Checkpoints

训练过程中的中间模型,虽然比完全收敛的模型准确性低,但是比完全收敛的模型更适合充当教师网络。相同训练轨迹的几个中间模型的弱集合,优于独立训练和完全收敛模型的强集合。本文通过信息瓶颈原理(IB)解释:中间模型的特征拥有更高的关于输入的互信息,从而包含更多的“暗知识”来有效蒸馏。并且进一步提出了一种基于最大化任务相关互信息的最优中间教师选择算法。

2023-07-16 21:00:13 372 2

原创 【CVPR_2017】Fast Optimization Network Minimization and Transfer Learning

A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning

2023-07-14 21:52:53 172 1

原创 【_2021】Student Helping Teacher-Teacher Evolution via Self-Knowledge Distillation

【_2021】Student Helping Teacher-Teacher Evolution via Self-Knowledge Distillation

2023-07-13 21:58:10 270 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除