本文是LLM系列文章,针对《Anchor-based Large Language Models》的翻译。
摘要
大型语言模型(LLM)主要采用仅解码器的transformer架构,需要保留历史token的密钥/值信息,以提供上下文信息并避免冗余计算。然而,这些LLM的巨大尺寸和参数体积需要大量的GPU内存。这种内存需求随着输入文本的长度而增加,导致迫切需要更有效的信息存储和处理方法。本研究介绍了基于锚的LLM(AnLLM),它利用了一种创新的基于锚的自注意网络(AnSAN)和一种基于锚的推理策略。这种方法使LLM能够将序列信息压缩到锚token中,从而减少密钥/值缓存并提高推理效率。对问答基准的实验表明,AnLLM保持了类似的准确性水平,同时实现了高达99%的键/值缓存减少和高达3.5倍的推理速度。尽管在准确性方面有微小的妥协,但采用AnSAN技术的AnLLM在资源利用率和计算效率方面的显著增强突出了其在实际LLM应用中的潜力。
1 引言
2 相关工作
3 基于锚的大语言模型
4 实验
5 结果
6 分析
7 结论
LLM已经成为人工智能领域的一个重要研究领域。然而,尽管这些模型在各种自然语言任务中表现出色,但其实际应用受到其显著的内存开销和时间效率的限制。在智能手机等资源受限的设备上实现LLM是一个独特的挑战。为了解决这个问题,我们提出了使用AnSAN技术的基于锚点的LLM。我们的实验表明,通过牺牲1.5%的精
本文介绍AnLLM,一种利用AnSAN和锚点推理策略的大型语言模型,能将序列信息压缩到锚token中,减少GPU内存需求,提高推理速度。实验证明,AnLLM在降低99%键/值缓存的同时,推理速度提升3.5倍,精度只下降1.5%,展示了在资源受限环境中的潜力。
已下架不支持订阅
1399

被折叠的 条评论
为什么被折叠?



