论文摘要:针对迁移学习的模型剪枝新方法
这篇论文由来自 Huggingface 和康奈尔大学的 Victor Sun、Thomas Wolff 和 Alexander M. Rush 共同撰写,提出了一种针对迁移学习的模型剪枝新方法。
核心观点:
传统的模型剪枝方法通常使用权重大小进行剪枝,但在迁移学习场景下,这种方法效果并不理想。论文建议使用权重变化量来进行剪枝,即在迁移学习过程中,权重变化越大的连接越重要,应该保留。这种方法在极度稀疏模型的情况下能够取得更好的效果,尤其适用于当前的 NLP 迁移学习任务,例如 BERT 模型。
论文内容概述:
论文首先介绍了模型剪枝的概念,以及在迁移学习中进行模型剪枝的必要性。随后,详细解释了传统的权重大小剪枝方法,并指出其在迁移学习场景下的局限性。
论文重点介绍了使用权重变化量进行剪枝的新方法。这种方法通过观察权重在迁移学习过程中的变化情况,来判断连接的重要性,从而选择保留或删除连接。
论文结论:
论文证明了使用权重变化量进行剪枝能够在迁移学习场景下取得更好的效果,尤其是在极度稀疏模型的情况下。该方法为 NLP 迁移学习任务提供了新的模型剪枝思路。
其他信息:
论文还提供了一些关于模型剪枝的背景知识,包括模型剪枝的步骤、目标和常见方法。
深度神经网络模型庞大,剪枝已成为机器学习产品流程的重要组成部分,可以缩小模型规模,同时保持高性能。然而,经典的剪枝方法,即幅度剪枝,在通过迁移学习获得的模型中效果不佳。本文提出了一种名为移动剪枝的解决方案,并展示了其优越的性能。提纲:0:00 - 简介和高层概述0:55 - 幅度剪枝4:25 - 迁移学习7:25 - 迁移学习中幅度剪枝的问题9:20 - 移动剪枝22:20 - 实验24:20 - 通过蒸馏进行改进26:40 - 学习权重的分析论文:https://arxiv.org/abs/2005.07683代码:https://github.com/huggingface/transformers/tree/master/examples/movement-pruning
摘要:幅度剪枝是纯监督学习中广泛用于减少模型规模的策略;然而,它在迁移学习机制中效果较差,而迁移学习机制已成为最先进的自然语言处理应用的标准。我们提出使用移动剪枝,这是一种简单、确定性的、一阶权重剪枝方法,更能适应预训练模型的微调。我们对该方法进行了数学基础研究,并将其与现有的零阶和一阶剪枝方法进行了比较。实验表明,当剪枝大型预训练语言模型时,移动剪枝在高稀疏性情况下表现出显著的改进。当与蒸馏相结合时,该方法在仅保留 3% 的模型参数的情况下,实现了最小的精度损失。