本文是LLM系列文章,针对《Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models》的翻译。
摘要
近几个月来,对 LLM 的推理需求猛增,由于注意力层的二次输入长度复杂性,为低延迟的模型提供服务仍然具有挑战性。在这项工作中,我们研究了在推理时丢弃 MLP 和注意力层对 Llama-v2 模型性能的影响。我们发现,丢弃 dreeper attention 层只会略微降低性能,但在丢弃整个层的同时可以带来最佳的加速。例如,在 13B Llama2 模型中删除 33% 的注意力层会导致平均性能比 OpenLLM 基准测试下降 1.8%。我们还观察到,跳过除后一层之外的层会降低跳过更多层的性能,但跳过注意力层除外。

订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



