更高效地训练大语言模型
通过在不同数据集上分别训练模型然后合并它们,计算成本可降低高达91%。
分布编辑模型
传统训练方法通过称为网格搜索的方法选择训练数据分布的最佳混合比例,这种方法在时间和资源方面要求很高,且缺乏灵活性:一旦模型训练完成,不承担类似成本就无法更改。
为应对这些限制,我们提出在对应不同任务的数据分布上对预训练模型进行微调,然后从微调模型的参数值中减去原始模型的参数值。我们将参数值的差异称为分布向量,并通过将分布向量的加权和添加到原始模型的参数来生成复合模型。
我们将生成的模型称为分布编辑模型,以突显利用权重向量算术进行模型编辑的特点。权重基于每个微调模型的困惑度,即从其参数值预测原始模型参数值的概率。
这种方法依赖两个关键观察:
- 在每个数据集上分别训练模型可以更好地建模每个数据集的基础特性,因为在训练过程中不会受到其他数据分布的干扰
- 困惑度可以在验证数据上通过单次前向传播计算,这比网格搜索高效得多
方法步骤
- 个体分布训练:通过标准训练程序在个体数据分布上训练原始模型。存储检查点以供后续步骤使用
- 分布向量计算:通过从微调模型的参数中减去预训练模型的参数来计算分布向量
- 合并系数优化:基于验证集上的困惑度找到组合数据分布向量的最优系数
- 分布向量合并:使用可自定义权重线性组合分布向量,创建能有效捕捉多样数据集联合分布的统一模型
- 灵活性和可扩展性:当引入新数据集时,分布编辑模型支持增量更新,无需完全重新训练
评估与未来工作
在评估中,我们专注于在指令调优阶段训练参数规模从30亿到130亿的大语言模型。研究表明,分布编辑模型将训练成本降低高达91%,同时在传统数据混合策略基础上实现高达16.1%的质量提升。
该研究的关键发现包括:
- 卓越性能:在流行基准测试中验证了分布编辑模型的优越性
- 多领域有效性:在多个数据集上的实验证明该方法在不同领域都能表现出色
- 可扩展性:在不同模型规模下均显示出性能改进
随着机器学习社区继续扩展模型和数据集,像分布编辑模型这样的框架对于保持效率而不牺牲性能至关重要。未来研究可能探索该框架在其他训练场景中的有效性,以及其向其他模型架构的扩展。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

被折叠的 条评论
为什么被折叠?



