知识蒸馏之Network Pruning

Network Pruning

前提:请添加图片描述

步骤:

请添加图片描述

问题

  • 为什么不直接训练一个小的网络,而先训练一个larger的再去Prune呢?
    * Larger network is easier to optimize.
    * 大的network甚至可以直接找到global minimum
    • The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
      • 如下图,如果直接重新random init一个pruned network的同样结构,train不动;但如果把original network的random init的值拿来,可以train请添加图片描述
      • Rethinking the Value of Network Pruning
        • 而这篇得出的结论却又相反:小的network是可以直接train的,而且效果还不一定比大的差。(Scratch-B相比Scratch-E train了更多的epoch)请添加图片描述
    • Hard to implement: Weight Pruning实际上把weight设成0相当于Prune,但实际model的大小并没有减小。但如果不这样做,GPU加速不了,因为你的权重不是规则的矩阵了。所以其实是裁剪neuron更方便,直接把连接到neuron的weight都拿掉就ok。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值