LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS

最新推荐文章于 2025-02-14 20:09:00 发布

UnknownBody

最新推荐文章于 2025-02-14 20:09:00 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133711525

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

LongLoRA是一种新的微调方法，能够在不显著增加计算成本的情况下，有效扩展预训练大型语言模型的上下文大小。通过引入转移短注意力和支持长上下文的LoRA，LongLoRA在保持模型性能的同时减少了GPU内存和训练时间。实验表明，该方法成功应用于LLaMA2模型，实现了从几千到数十万的上下文扩展。

本文是LLM系列文章，针对《LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》的翻译。

摘要

我们提出了LongLoRA，一种有效的微调方法，以有限的计算成本扩展预训练的大型语言模型(llm)的上下文大小。通常，训练具有长上下文大小的llm在计算上是昂贵的，需要大量的训练时间和GPU资源。例如，在上下文长度为8192的情况下进行训练，自注意力层的计算成本是在上下文长度为2048的情况下的16倍。本文从两个方面加快LLM的语境扩展。一方面，虽然在推理过程中需要密集的全局关注，但通过稀疏的局部关注可以有效地对模型进行微调。所提出的转移短注意力(S2 -Attn)有效地支持上下文扩展，从而节省大量计算，性能与使用普通注意力进行微调相似。特别的是，它可以在训练中仅用两行代码实现，而在推理中是可选的。另一方面，我们重新审视了上下文扩展的参数有效微调机制。值得注意的是，我们发现LoRA在可训练的嵌入和规范化的前提下可以很好地进行上下文扩展。LongLoRA在LLaMA2模型从7B/13B到70B的各种任务上证明了强有力的实证结果。LongLoRA在单个8× A100机器上采用LLaMA2 7B从4k上下文到100k，或LLaMA2 70B到32k。LongLoRA扩展了模型的上下文，同时保留了它们原来的架构，并且与大多数现有技术兼容，比如FlashAttention-2。此外，为了使LongLoRA实用，我们收集了一个数据集LongQA，用于监督微调。它包含超过3k长的上下文问答对。我们所有的代码、模型、数据集和演示都可以在github.com/dvlab-research/LongLoRA上获得。