本文是LLM系列文章,针对《Pruning Pre-trained Language Models Without Fine-Tuning》的翻译。
摘要
为了克服预训练语言模型(PLMs)中的过度参数化问题,剪枝作为一种简单直接的压缩方法被广泛使用,它直接去除不重要的权重。先前的一阶方法成功地将plm压缩到极高的稀疏度,而性能下降很小。这些方法,如运动剪枝,使用一阶信息剪枝plm,同时微调剩余的权重。在这项工作中,我们认为微调对于一阶剪枝是多余的,因为一阶剪枝足以在没有微调的情况下将plm收敛到下游任务。在此动机下,我们提出了静态模型剪枝(SMP),该方法仅使用一阶剪枝使plm适应下游任务,同时达到目标稀疏度水平。此外,我们还设计了新的掩蔽函数和训练目标来进一步改进SMP。在各种稀疏度水平上的大量实验表明,SMP方法比一阶和零阶方法有显著的改进。与以前的一阶方法不同,SMP也适用于低稀疏度,并且优于零阶方法。同时,由于不需要微调,SMP比其他方法具有更高的参数效率。我们的代码可在https://github.com/kongds/SMP上获得。
1 引言
2 相关工作
3 背景
4 静态模型剪枝
5 实验
6 分析
7 结论
在本文中,我们提出了一种简单而有效的特定于任务的剪枝方法,称为静态模型剪枝(SMP)。考虑到之前的方法,即执行修剪和微调以使plm适应下游
本文提出静态模型剪枝(SMP)方法,用于在不进行微调的情况下,利用一阶剪枝压缩预训练语言模型(PLMs)并适应下游任务。SMP在各种稀疏度下表现优越,尤其在低稀疏度时仍能超越一阶和零阶方法,且参数效率更高。实验显示,SMP在BERT模型上证实了彩票假设,即存在无需额外训练即可达到原性能的稀疏子网。尽管SMP在推理加速方面有限,但通过矩阵压缩,仍能在高稀疏度下实现推理速度提升。
已下架不支持订阅
2386

被折叠的 条评论
为什么被折叠?



