李宏毅老师课程：Network Compression_李宏毅老师的深度学习课程—

本文链接：https://blog.youkuaiyun.com/APythonC/article/details/108274338

网络压缩

Why ？
Network Pruning（修剪）
Knowledge Distillation
Parameter Quantization（参数量化）
Architecture Design（架构设计）
Dynamic Computation

Why ？

在未来我们可能需要model放到model device上面，但这些device上面的资源是有限的，包括存储控价有限和computing power有限
在这里插入图片描述

Network Pruning（修剪）

Network can be pruned

在这里插入图片描述

Network Pruning

对于训练好的network，我们要判断其weight和neural的重要性：

如果某个weight接近于0，那么我们可以认为这个weight是不那么重要的，是可以pruning的；如果是某个很正或很负的值，该weight就被认为对该network很重要；
如果某个neural在给定的dataset下的输出都是0，那么我们就可以认为该neural是不那么重要的

在评估出weight和neural的重要性后，再进行排序，来移除一些不那么重要的weight和neural，这样network就会变得smaller，但network的精确度也会随之降低，因此还需要进行fine-tuning

最好是每次都进行小部分的remove，再进行fine-tuing，如果一次性remove很多，network的精确度也不会再恢复

Why Pruning?

那么为什么不直接train一个小的network呢？

因为小的network比较难train，大的network更容易optimize（优化）

Lottery Ticket Hypothesis（彩票假说）

我们先对一个network进行初始化（红色的weight），再得到训练好的network（紫色的weight），再进行pruned，得到一个pruned network

如果我们使用pruned network的结构，再进行随机初始化random init（绿色的weight），会发现这个network不能train下去
如果我们使用pruned network的结构，再使用原始随机初始化original random init（红色的weight），会发现network可以得到很好的结果

train这个network就像买大乐透一样，有的random可以tranin起来，有的不可以
在这里插入图片描述

Pratical Issue（实际问题）

如果我们现在进行weight pruning，进行weight pruning之后的network会变得不规则，有些neural有2个weight，有些neural有4个weight，这样的network是不好implement（实行）出来的；

GPU对矩阵运算进行加速，但现在我们的weight是不规则的，并不能使用GPU加速；

实做的方法是将pruning的weight写成0，仍然在做矩阵运算，仍然可以使用GPU进行加速；但这样也会带来一个新的问题，我们并没有将这些weight给pruning掉，只是将它写成0了而已
在这里插入图片描述
实际上做weight pruning是很麻烦的，通常我们都进行neuron pruning，可以更好地进行implement，也很容易进行speedup

Knowledge Distillation

Student and Teacher

我们可以使用一个small network（student）来学习teacher net的输出分布（1:0.7…），并计算两者之间的cross-entropy，使其最小化，从而可以使两者的输出分布相近
在这里插入图片描述
teacher提供了比label data更丰富的资料，比如teacher net不仅给出了输入图片和1很像的结果，还说明了1和7长得很像，1和9长得很像；所以，student跟着teacher net学习，是可以得到更多的information的