ProLong：长文本语言模型的革新之作

原创于 2025-03-30 10:08:39 发布

· 262 阅读

版权

ProLong：长文本语言模型的革新之作

ProLong Homepage for ProLong (Princeton long-context language models) and paper "How to Train Long-Context Language Models (Effectively)" 项目地址: https://gitcode.com/gh_mirrors/pr/ProLong

项目介绍

ProLong 是一种长文本语言模型家族，它基于 Llama-3-8B 模型进行持续训练和监督微调。这种模型的最大上下文窗口达到了惊人的 512K 令牌（token）。通过在 Llama-3-8B 模型的基础上进行长文本上下文的持续训练和监督微调，ProLong 模型在 10B 规模的长文本上下文模型中表现出色，这一表现是通过 HELMET 评估得出的。

项目技术分析

ProLong 的核心是扩展了 Llama-3-8B 模型的上下文窗口，并对其进行了深度优化。项目团队对长文本预训练数据、监督微调（SFT）数据以及多种设计选择进行了彻底的消融研究，其研究成果详细记录在论文《How to Train Long-Context Language Models (Effectively)》中。

该模型在训练过程中使用了两种阶段的数据：64K 令牌的数据集和 512K 令牌的数据集。此外，监督微调阶段使用了 UltraChat 数据集。ProLong 模型的训练代码基于 Hugging Face 的 Transformers 库，并对其进行了多项改进，包括支持 mosaicml-streaming 数据格式、FlashAttention-2 的可变长度注意力机制、序列并行性等。