高效训练大语言模型的新方法

更高效地训练大语言模型

通过在不同数据集上分别训练模型然后合并它们,计算成本可降低高达91%。

分布编辑模型

传统训练方法通过称为网格搜索的方法选择训练数据分布的最佳混合比例,这种方法在时间和资源方面要求很高,且缺乏灵活性:一旦模型训练完成,不承担类似成本就无法更改。

为应对这些限制,我们提出在对应不同任务的数据分布上对预训练模型进行微调,然后从微调模型的参数值中减去原始模型的参数值。我们将参数值的差异称为分布向量,并通过将分布向量的加权和添加到原始模型的参数来生成复合模型。

我们将生成的模型称为分布编辑模型,以突显利用权重向量算术进行模型编辑的特点。权重基于每个微调模型的困惑度,即从其参数值预测原始模型参数值的概率。

这种方法依赖两个关键观察:

  1. 在每个数据集上分别训练模型可以更好地建模每个数据集的基础特性,因为在训练过程中不会受到其他数据分布的干扰
  2. 困惑度可以在验证数据上通过单次前向传播计算,这比网格搜索高效得多

方法步骤

  1. 个体分布训练:通过标准训练程序在个体数据分布上训练原始模型。存储检查点以供后续步骤使用
  2. 分布向量计算:通过从微调模型的参数中减去预训练模型的参数来计算分布向量
  3. 合并系数优化:基于验证集上的困惑度找到组合数据分布向量的最优系数
  4. 分布向量合并:使用可自定义权重线性组合分布向量,创建能有效捕捉多样数据集联合分布的统一模型
  5. 灵活性和可扩展性:当引入新数据集时,分布编辑模型支持增量更新,无需完全重新训练

评估与未来工作

在评估中,我们专注于在指令调优阶段训练参数规模从30亿到130亿的大语言模型。研究表明,分布编辑模型将训练成本降低高达91%,同时在传统数据混合策略基础上实现高达16.1%的质量提升。

该研究的关键发现包括:

  • 卓越性能:在流行基准测试中验证了分布编辑模型的优越性
  • 多领域有效性:在多个数据集上的实验证明该方法在不同领域都能表现出色
  • 可扩展性:在不同模型规模下均显示出性能改进

随着机器学习社区继续扩展模型和数据集,像分布编辑模型这样的框架对于保持效率而不牺牲性能至关重要。未来研究可能探索该框架在其他训练场景中的有效性,以及其向其他模型架构的扩展。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值