模型压缩大体上可以分为 5 种:
- 模型剪枝:即移除对结果作用较小的组件,如减少 head 的数量和去除作用较少的层,共享参数等,ALBERT属于这种;
- 量化:比如将float32 降到 float8;
- 知识蒸馏:将 teacher 的能力蒸馏到 student上,一般 student 会比teacher 小。我们可以把一个大而深的网络蒸馏到一个小的网络,也可以把集成的网络蒸馏到一个小的网络上。
- 参数共享:通过共享参数,达到减少网络参数的目的,如 ALBERT 共享了 Transformer 层;
- 参数矩阵近似:通过矩阵的低秩分解或其他方法达到降低矩阵参数的目的;

本文介绍了五种模型压缩技术:模型剪枝通过移除冗余组件来减小模型大小;量化降低了权重精度;知识蒸馏将大型模型的知识迁移到小型模型;参数共享实现了跨层参数的复用;参数矩阵近似通过低秩分解等方式减少参数。
617

被折叠的 条评论
为什么被折叠?



