本文是LLM系列文章,针对《Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture
摘要
大型语言模型(LLM)发展的一个关键进展是混合专家(MoE)LLM的出现。与传统LLM相比,MoE LLM可以用更少的参数实现更高的性能,但由于其巨大的参数大小,部署起来仍然很困难。与以往依赖于专门设计的硬件的权重修剪方法不同,本文主要旨在通过引入即插即用专家级稀疏化技术来提高MoE LLM的部署效率。具体而言,据我们所知,我们首次提出了MoE LLM的任务不可知和特定任务专家修剪和跳过的后训练方法,旨在提高部署效率,同时在广泛的任务中保持模型性能。大量实验表明,我们提出的方法可以同时减少模型大小和提高推理速度,同时保持令人满意的性能。数据和代码将在https://github.com/Lucky-Lance/Expert_Sparsity可用。
1 引言
2 相关工作
3 方法
4 实验
5 结论和讨论
在本文中,基于MoE LLM的结构特征和当前权重修剪方案的不足,我们专注于专家级模型稀疏化,并首次提供了训练后的专家修剪和动态(专家)跳跃方法,以提高MoE LLMs的部署效率。我

本文研究了如何提高混合专家(MoE)大型语言模型(LLM)的部署效率。通过任务不可知和特定任务的专家级修剪与跳过策略,实现了在不牺牲性能的前提下减小模型规模和提升推理速度。实验结果显示,这些方法能够有效减少内存占用,同时保持模型的高效运行。
已下架不支持订阅

被折叠的 条评论
为什么被折叠?



