一、摘要
本文介绍2025年5月由微软牵头发表的论文《WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference》。

摘要:
大型语言模型(LLM)不断增长的计算需求,使得高效推理和激活策略变得愈发关键。虽然诸如专家混合(MoE)等近期方法利用了选择性激活,但需要专门的训练,而免训练的稀疏激活方法通过即插即用的设计,具备更广泛的适用性和卓越的资源效率。然而,许多现有方法仅依赖隐藏状态的大小来确定激活,这导致了较高的近似误差和不理想的推理准确性。为解决这些局限性,我们提出了WINA(权重感知神经元激活),这是一种新颖、简单且免训练的稀疏激活框架,它同时考虑隐藏状态的大小和权重矩阵的列方向ℓ2范数。我们证明,这会产生一种稀疏化策略,该策略能获得最优的近似误差界,且理论保证比现有技术更严格。在实证方面,在相同的稀疏度水平下,WINA在多种LLM架构和数据集上的平均性能比最先进的方法(如TEAL)高出2.94%。这些结果使WINA成为LLM推理中免训练稀疏激活的新性能前沿,推动了免训练稀疏激活方法的发展,并为高效推理设定了坚实的基线。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



