IBM扩展Granite代码模型到128K上下文

最新推荐文章于 2025-08-14 12:19:48 发布

步子哥

最新推荐文章于 2025-08-14 12:19:48 发布

阅读量1k

点赞数 17

CC 4.0 BY-SA版权

分类专栏： AGI通用人工智能文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/weixin_36829761/article/details/140598881

AGI通用人工智能专栏收录该内容

1568 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

随着代码库级别任务（Liu et al., 2024; 2023b）和软件开发代理（OpenDevin Team, 2024）的发展，长上下文长度成为代码语言模型的重要特性。虽然许多专有的大型语言模型，如GPT-4、Gemini和Claude，支持非常长的上下文窗口，但大多数开源代码语言模型只能提供相对较短的上下文窗口（CodeGemma Team et al., 2024; Rozière et al., 2023）。这种短上下文长度限制了开源代码语言模型在实际软件开发中的实用性。

本文介绍了支持有效上下文长度达128K的Granite代码3B和8B系列代码语言模型。为了实现扩展的上下文长度，我们首先通过存储库级代码语料库和上采样长上下文存储库对Granite代码3B/8B基础模型进行持续预训练。然后，我们在短上下文和长上下文指令数据的组合上对持续预训练的模型进行指令微调。由于缺乏长上下文指令数据，我们通过我们的原始Granite-8B-Code-Instruct模型从存储库级文件打包文档生成多轮指令数据，以避免对现有长上下文模型的依赖。

长上下文建模

我们的扩展Granite代码模型上下文长度的方法包括持续预训练和指令微调阶段。类似于之前的工作（Fu et al., 2024），我们假设在大型预训练过程中，模型已经获得了使用任意输入位置信息的能力，这种能力可以通过对适当数据混合进行轻量级训练，扩展到远超原始预训练期间所见的上下文长度（例如，从4K扩展到128K）。