发布平台:CVPR
发文链接:https://arxiv.org/abs/2202.10716
代码链接:https://github.com/sarvanichinthapalli/HRel
创新点
使用滤波器的激活映射和类标签之间的信息量(相关性),判断滤波器的重要性。
理论依据
在IB理论中,利用IP动力学分析了神经网络的学习过程。在神经网络的训练过程中,有两个量,每个隐藏层对于输入
的信息量
,每个隐藏层
对于标签
的信息量
不断增加。在训练的某个点,数量
开始减少,而
继续增加,如图1所示。
符号
两个随机变量、
之间的互信息(MI),即
,通过观察另一个随机变量
,可以推断出关于一个随机变量
的信息量,表示为
其中,和
表示熵,
表示联合熵。
卷积层的滤波器可以表示为
,其中
是
层中滤波器的数量,
,
是内核大小,
是每个滤波器的通道数。
对于的个小批次,第
个隐层的滤波器的激活图用
,其中,
是过滤器的数量,是小批量的大小,
和
分别是激活图的高度和宽度。
修剪的滤波器和剩余的滤波器
,其中
和
是
层中被剪掉的和剩余的滤波器的数量。
和
分别表示被修剪的和剩余的滤波器集中的第
个和第
个滤波器。
表示输入与隐藏层的信息量。
表示隐藏层与标签的信息量。
表示隐藏层的激活映射
与标签
之间的信息量。
表示单个滤波器与标签
的信息量。
表示第个
小批训练数据得到的滤波器激活映射与标签
的信息量。
表示
批处理量数据得到滤波器激活映射与标签
的信息量。
图3:计算的相关性所涉及的步骤,即来自第k个小批的第i层的第j个滤波器的激活图。
计算信息量(看不懂)
对于一个给定的大小为的迷你批,生成的激活图
,使用高斯核计算大小为s×s的Gram矩阵为
,其中
,对于所有
,σ表示核宽,
表示Frobenius范数。
熵用归一化Gram矩阵N的特征值为
其中,,
为所有
,和
是N的第i个特征值。
修剪标准
要从每一层中选择要修剪的过滤器,需要两个超参数。一个是由
表示的最终保留的过滤器数量,另一个是由修剪比率确定的每次修剪迭代中要修剪的剩余过滤器的百分比。