Anchor-based Large Language Models

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量126

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137922960

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍AnLLM，一种利用AnSAN和锚点推理策略的大型语言模型，能将序列信息压缩到锚token中，减少GPU内存需求，提高推理速度。实验证明，AnLLM在降低99%键/值缓存的同时，推理速度提升3.5倍，精度只下降1.5%，展示了在资源受限环境中的潜力。

本文是LLM系列文章，针对《Anchor-based Large Language Models》的翻译。

摘要

大型语言模型（LLM）主要采用仅解码器的transformer架构，需要保留历史token的密钥/值信息，以提供上下文信息并避免冗余计算。然而，这些LLM的巨大尺寸和参数体积需要大量的GPU内存。这种内存需求随着输入文本的长度而增加，导致迫切需要更有效的信息存储和处理方法。本研究介绍了基于锚的LLM（AnLLM），它利用了一种创新的基于锚的自注意网络（AnSAN）和一种基于锚的推理策略。这种方法使LLM能够将序列信息压缩到锚token中，从而减少密钥/值缓存并提高推理效率。对问答基准的实验表明，AnLLM保持了类似的准确性水平，同时实现了高达99%的键/值缓存减少和高达3.5倍的推理速度。尽管在准确性方面有微小的妥协，但采用AnSAN技术的AnLLM在资源利用率和计算效率方面的显著增强突出了其在实际LLM应用中的潜力。

1 引言

2 相关工作

3 基于锚的大语言模型

4 实验

5 结果

6 分析

7 结论

LLM已经成为人工智能领域的一个重要研究领域。然而，尽管这些模型在各种自然语言任务中表现出色，但其实际应用受到其显著的内存开销和时间效率的限制。在智能手机等资源受限的设备上实现LLM是一个独特的挑战。为了解决这个问题，我们提出了使用AnSAN技术的基于锚点的LLM。我们的实验表明，通过牺牲1.5%的精

了解本专栏