[论文笔记] MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models_mixture of skill learning to optimize data us-优快云博客

本文链接：https://blog.youkuaiyun.com/Trance95/article/details/142389951

这篇论文的标题是《MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models》，作者是 Minghao Wu、Thuy-Trang Vu、Lizhen Qu 和 Gholamreza Haffari，他们来自莫纳什大学。论文提出了一个名为 MIXTURE-OF-SKILLS（简称 MOS）的通用、模型无关的强化学习框架，用于在微调大型语言模型（LLMs）的过程中自动优化数据使用。

摘要：

大型语言模型（LLMs）通过在多样化和广泛的数据集上进行微调来发展包括写作、推理、聊天、编程等多种技能。这些数据集通常是异构和不平衡的，使得微调过程非常具有挑战性。MOS 框架通过动态调整对不同数据集的关注点来确保 LLMs 在微调过程中能够最优地发展综合技能。为了验证 MOS 的有效性，作者使用三种不同的 LLM 架构在两个广泛使用的基准测试上进行了广泛的实验，结果表明 MOS 显著提高了模型性能。此外，作者还提出了 MOSPEC，这是 MOS 的一个变种，用于特定任务的微调，它利用不同数据集的效用来实现特定目的。论文强调了数据集重新平衡的重要性，并将 MOS 呈现为优化 LLMs 微调数据使用的强大通用解决方案。

主要贡献：

提出了一个通用的、模型无关的强化学习框架 MOS，它通过三个新颖的奖励机制在 SFT 过程中自动学习优化数据使用。
在两个基准测试上使用三种模型架构进行的广泛实验表明，MOS 显著提高了模型性能，不仅有效学习了最优数据使用，还加速了训练收敛，并且对采样先验的变化保持了鲁棒性，与强大的实例选择方法兼容。
探索了 MOS 在特定任务微调中的应用，引入了一个变种 MOSPEC，通过轻微修改奖励，证明了它能有效利用多样化的数据集进行特定任务的微调。

论文还讨论了 MOS 在实际应用中的潜力，尤其是在需要特定技能的部署场景中，以及如何通过微调大型通用模型来发展出更专业的模型。论文的结论强调了 MOS 在解决 LLMs 微调中数据集异构性和不平衡性挑战方面的有效性。

1. 收集反馈

在做菜的过程中，你每次尝试后都会尝一尝，看看味道如何。这就好比在训练模型时，我们会评估模型在某些任务上的表现，比如让模型完成一些特定的写作、推理或编程任务，然后根据任务的完成情况给出评分。

2. 分析反馈

你不仅会尝菜的味道，还会分析哪些食材放多了或放少了，导致味道的变化。在MOS中，我们通过以下三种奖励机制来分析反馈：

转移性（Transferability）：看看哪些食材（数据集）的搭配能够更好地适应新的菜肴（任务）。如果某些食材组合在多个菜肴中都表现得很好，那么这些食材的组合就是有益的。
难度（Difficulty）：评估每个食材（数据集）的难度。如果某个食材很难处理（数据集很难学习），但处理得好的话，对最终的菜肴（模型）帮助很大，那么这个食材就应该多用一些。
学习轨迹（Learning Trajectory）：考虑整个做菜过程（训练过程）中的学习动态。如果发现某个食材（数据集）在某个阶段特别有用，那么在后续的尝试中就应该增加这个食材的使用。