Investigating Optimization Strategies and Architectural Innovations

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量100

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/140370149

LLM Daily 专栏收录该内容

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，这是一篇硕士文章，针对《Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations》的翻译。

摘要

大型语言模型的规模正在增长，我们预计随着大型模型训练速度的加快，它们将继续增长。然而，这种大小的增加将严重影响推理成本。因此，模型压缩很重要，可以保持较大模型的性能，同时降低运行成本。在这篇论文中，我们探索了模型压缩的方法，并实证证明了在Transformer LLM中跳过后一个注意子层的简单方法是一种有效的模型压缩方法，因为这些层被证明是冗余的，同时计算成本也非常高。我们观察到Llama 2 7B的一个token生成速度提高了21%，同时在几个常见的基准测试中令人惊讶和意外地提高了性能。

1 引言

2 文献综述

3 方法

4 结果

5 结论

从我们的实验中，我们实证表明，在所考虑的基准测试中，后一层注意力对性能没有显著影响，甚至在某些任务中可能是一个劣势。这一结论与[24]的研究一致，在该研究中，视觉transformer也得到了类似的结果，但考虑到所有的权重都是在模型训练过程中使用的，这一现象仍然令人惊讶。我们的研究可以启发训练尾部没有注意子层的LLM，因为我们经验表明这些子层对于推理是多余的，这可能意味着即使首先训练这些权重也没有意义。
注意子层在计算上也很重，因为它们在加载到GPU上时会占用大量内存。注意子层的这些缺点，再加上它们几乎不提供推理信息的事实，意味着无注意LLM可能会变得更加普遍。我们还想指出，跳过注意力层的性能的任何小幅下降都可能是由于MLP层的敏感性和非鲁棒性造成的，即使是微