From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection

volcanical

于 2025-01-04 21:42:06 发布

阅读量1k

点赞数 29

分类专栏：算法文章标签： boosting 集成学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/huoshanshaohui/article/details/144914159

版权

算法专栏收录该内容

14 篇文章

订阅专栏

方法

方法分为三个核心阶段:从简短的经验中学习，基于经验的评估，以及从自我指导的经验中再培训。初始阶段强调为模型配备基本的指令遵循能力。随后的阶段引入了一个新的度量来评估每个样本的指令遵循难度评分，该评分基于先前训练的先验模型。最后，在获得目标数据集中的难度分数后，选择樱桃样本来训练最终模型。

1. 从简短的经验中学习

先喂给模型一些目标数据集的子集，这一部分主要涉及到子集要如何选择。

假设我们的原始数据集有n对三元对x=(指令，输入，回答)。

在这里插入图片描述
这个公式的意思就是，把每一条数据的 $Q u es t i o n$ 部分输入 $LL M$ ，得到每个token的输出，然后对所有token取平均。

得到了每一条数据的 $re p rese n t a t i o n$ 后，使用 $K - m e an s$ 聚类，然后对每个聚类 $s am pl e$ ，得到一个子集。

2. 基于经验的评估

首先是条件回答概率：
在这里插入图片描述
条件回答概率衡量了微调后的模型，在给定上下文的情况下，回答出标准答案的概率。

然后是直接回答概率：
在这里插入图片描述
给定一个大模型，没有上下文，给出这个回答的概率是多少。

最终的 $I F D$ 得分就是二者相除：
在这里插入图片描述
通常，由于下一个标记预测的内在性质，条件回答分数总是小于直接回答分数:有了给定的上下文，后一个标记的预测应该更容易。因此，如果IFD分数大于1，则条件回答分数甚至大于直接回答分数，这意味着给定的指令没有为预测反应提供有用的上下文。在这种情况下，我们认为指令和相应的响应之间存在不一致，剔除。

实验

1. 对战实验

在这里插入图片描述

2. 不同数据比例下，胜率的变化

在这里插入图片描述

3. Leaderboard

在这里插入图片描述

消融

在这里插入图片描述
比较神奇的是，使用CA score（就是输入问题之后，对回答的困惑度），挑选困惑度高的数据，训练出来的解决居然更差，说明除以直接回答分数还是有用的。

Cherry数据的特点

在这里插入图片描述
与传统观念相反，樱桃数据并不是均匀分散的。相反，高难度和低难度的样本之间存在明确的界限，挑战了先前的假设，即选择的数据应该跨越整个指令谱并最大化多样性。

在这里插入图片描述
由低IFD分数样本主导的集群充满了编辑标点、单词或句子等基本任务。相比之下，IFD得分高的群体通常是更深入、更复杂的任务，比如讲故事或解释现象。

本实验揭示了高ifd数据与低ifd数据的模式特征存在明显差异。高ifd数据主要涉及创造性和复杂的指令，如“写故事”、“生成列表”、“解释概念”，这些指令需要大量的创造力、思维能力和深刻的理解。相反，低ifd数据更多的是遵循规则，需要较少的创造力，这表明不同任务对语言模型的思维和创造力的需求差异很大。因此，IFD之所以是数据过滤的有效指标，可以归结为它能够找到需要更多创造力和深入理解的指令。

在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

volcanical 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。