全自动调整数据配比,解放LLM工程师丨上海AI Lab&上海交大联合团队提出创新数据均衡方法,让大语言模型不“偏科”

一、🔍 研究背景

大型语言模型 (LLM) 凭借其强大的理解和逻辑推理能力,在多个领域展现了惊人的能力。然而,除了增加模型参数,高质量的数据对提升LLM性能同样关键。 

当对模型进行监督微调(SFT)时,研究人员发现LLM在多任务场景下常出现"偏科"现象——部分能力突出而部分能力并未涨进,甚至退化。这种不平衡的现象导致大模型在不同的领域上能力不同,进而影响用户体验。 

为了解决这一问题,来自上海 AI 实验室 OpenDataLab 团队和上海交通大学等的研究者迅速将目光聚焦到SFT训练的训练集上,提出是否可以通过调整训练集的组成来缓解LLM“偏科”的情况?直觉上来看,直接将LLM的弱势科目的训练数据增加一倍,就可以让最后的结果发生变化,但这种方法看似可行,然而由于训练数据之间的复杂耦合关系,效果有限。

最后,研究者们通过构建 IDEAL(Innovative Data Equilibrium Adaptation Framework)——一种创新的数据均衡适应框架,建模量化每个领域数据对最终结果的影响,科学地调整训练数据集的组成,实验表明,IDEAL 方法优化混合 SFT 数据集中不同领域数据的分布,有效提高模型在多个能力上的对齐和性能表现。

非常实用的一项研究,快来看看:

图片

📜 论文信息

● 标题:《IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment》

● 论文链接:https://arxiv.org/abs/2505.12762

● 代码库:https://anonymous.4open.science/r/IDEAL-678C520/README.md

二、🚀 IDEAL方法

问题建模: 

首先按照不同的领域准备高质量的训练数据集:\mathcal{D}_{tr}=\mathcal{D}_1 \cup \dots \cup \mathcal{D}_n,并给出对应的用于验证的验证集:\mathcal{D}_{ref}。通过在训练集上面训练模型\theta,获得训练集上的最优参数{\theta}^*,论文希望在验证集上的损失达到最小。为了能够方便的调整训练集,论文引入了对应的变量,并将这个优化问题显示地建模了出来:

论文从理论角度给出了各个领域数据调整对于最优模型在验证集上影响的大小(具体可见原论文中的Lemma 1):

高效计算: 

由于式子中存在参数二阶矩阵的逆的操作,计算的资源消耗非常大。为了能够扩展到LLM的参数量级,论文采用了K-FAC的理论来近似简化计算Hessian矩阵的逆。通过挑选模型参数中的“重要”层的数值来近似刻画各个领域数据对于最后模型性能的影响,并最后通过合理的放缩超参数m来控制最后的调整比例大小:

整体的算法流程图如下所示:

图片

三、📊 实验结果

论文主要以Llama3.1 8B模型作为Base model,测试了IDEAL对四个典型领域上多任务训练的模型的提升效果。可以看到,无论是epoch1还是epoch3,IDEAL都能够在2轮迭代后将原先不擅长的Coding能力显著提升。

图片

除此之外,论文还有其他的发现:

  • 一般随机初始的训练集分布都是有进一步优化的空间:文章中,无论在在四个领域四个benchmark,还是5个领域8个benchmark上,无论初始分布是各个领域是数量相等的或者不等的分布上,IDEAL都实现了对于平均结果的提升。

  • SFT阶段训练数据的数量不是关键:因为以往的re-weighting工作会控制整体的训练数据量,我们将对比的方法DoReMi和DOGE,都提升了整体的数据量到IDEAL对应的数量,但实验结果证明,提升数据量而没有改变数据混合分布,对于模型的提升效果甚微。

  • 如果数据分布配比不合适,更多数据量,训练地更久,反而会导致更加不均衡的模型效果。我们发现相比训练epoch1,训练同样的数据3epoch会导致数据之间的负面冲突被放大,导致最终的模型性能更加不均衡。

  • 论文还指导了超参数m的选取:m的取值最好选在0.15。因为理论要求,应该在原始分布的周围优化数据配比,所以m应该选取不大的步长。而选取过小的步长,对于模型最终的效果影响也会较小。综上所属,论文在m=0.1,0.15,和0.3三个设定的实验中更加推荐0.15的取值。

四、🌟 应用价值

IDEAL解决了得到各个领域高质量训练数据之后如何配比组合成为统一的训练集的问题。通过迭代优化的方式优化训练集的各个领域数据数量。避免了之前研究者需要按经验,人工调整各个数据集配比的dirty work,具有较大的实用价值。

欢迎关注:

👇

📜 论文信息

● 标题:IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment

● 作者:上海交通大学、上海AI实验室、清华大学等

● Anonymous GitHub代码库:https://anonymous.4open.science/r/IDEAL-678C520/README.md

● ArXiv论文:https://arxiv.org/abs/2505.12762

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值