Rethinking Data Selection at Scale: Random Selection is Almost All You Need

论文:
Rethinking Data Selection at Scale: Random Selection is Almost All You Need

背景:

现在,一些SFT技术,主要目标是在较大的数据池中选择一个较小但具有代表性的子集数据,以便使用该子集进行微调可以实现与使用整个数据集相当甚至更好的结果。然而,大多数现有的数据选择技术都是为小型数据池设计的,无法满足现实世界中SFT场景的需求。如这个论文:Selecting influential data for targeted instruction tuning。

结论:

  1. 目前,各种在小规模数据上筛选数据的各种策略,并不比在大规模的数据集上随机的效果好太多
  2. 多样重要性大于质量
  3. 最后,我们发现了过滤按令牌长度的数据为改进结果提供了一种稳定有效的方法

数据选择的方式:

外部打分方式:Extenral-scoring methods
利用GPT4o进行打分
自打分方式:Self-scoring methods,利用需要微调的大模型自身作为数据打分器(主要省钱)
LESS
IFD
SelectIT DiverseEvol
ZIP
后面主要研究基于自打分方式

动机:

在这里插入图片描述
y轴表示差异分数,通过减去随机值来计算的。
随着数据规模增加,数据选择的策略,并没有比随机的效果好

数据集:

经典的数据集alpaca,规模比较小52k,本文选择两个百万级别的数据集:
Openhermes2.5
WildChat-1M
实验结果:
Openhermes2.5 dataset
在这里插入图片描述
WildChat dataset
在这里插入图片描述

当处理一个广泛的SFT数据集时,随机选择训练数据比花费大量的时间和资源来选择训练数据更有效精心选择看似最优的训练数据

QUALITY VS DIVERSITY

在这里插入图片描述
采用k-means方式,融合k-means和自评分的方式,选择每个簇里面得分最大的结果
k-means能够增强大部分方法,这表明数据的多样性大于质量

WHICH METHOD IS THE BEST?

在这里插入图片描述
OpenHermes的数据质量高于WildChat, 但是OpenHermes的效果却低于WildChat
WildChat data平均长度1142
OpenHermes data平均长度354
在这里插入图片描述
根据令牌长度选择数据可以稳定地获得较高的训练效益,减少了算法的误码率不确定性造成随机性,降低成本。

总结:

在这项研究中,我们观察到许多自监督微调(SFT)数据选择方法依赖于小规模数据集,这些数据集并不满足实际场景的需求。这一发现使我们重新思考,在需要处理大规模IT数据集时,SFT数据选择方法是否仍然有效。我们在两百万规模的数据集上重现了一些现有的自评分数据选择方法,这些方法不需要外部大语言模型(LLM)的支持,结果发现几乎所有现有方法在处理大规模数据集时都没有显著超过随机选择。此外,我们的分析显示,在SFT阶段,数据选择中的数据多样性比数据质量更为重要。此外,将token长度作为质量指标相比其他精心设计的质量指标,更适合用于SFT数据选择。

### 少样本图像分类研究中的良好嵌入重要性 在少样本图像分类领域,良好的特征嵌入对于模型性能至关重要。由于训练过程中仅有少量样本来代表每一类别,传统的基于大量标注数据的学习方法不再适用。此时,构建能够有效捕捉不同类别间细微差异的强大表征成为解决问题的核心。 #### 特征空间的有效映射 为了使模型能够在仅给定少数样本的情况下泛化到未见过的数据上,必须设计一种机制使得同类别的样本尽可能聚集在一起而异类则保持距离。这不仅有助于提高决策边界的准确性,而且还能增强对抗过拟合的能力[^1]。通过引入知识库中实体间的语义关联作为文本提及两实体的关系,可以减少标签噪声并增加罕见关系的实例数量,从而改善特征表达的质量。 #### 多模态信息融合的重要性 除了视觉上的相似性外,考虑其他形式的信息同样不可忽视。例如,在某些情况下,即使图片本身提供的线索较少,但如果能提前知晓新类别与其他已知对象之间存在的特定联系,则可大大简化学习过程。比如,“自行车”这一新类别可能因为其外观接近“摩托车”,并且常与“人”共同出现以及偶尔承载着“瓶子”。这些额外的知识可以帮助建立更鲁棒的目标识别框架[^3]。 #### 超越单纯依赖好嵌入的方法 值得注意的是,尽管高质量的嵌入是成功实施少样本学习的基础之一,但这并不是唯一的决定因素。研究表明,在处理此类任务时,迁移学习并非总是最优解;相反,专门针对该场景优化的技术往往可以获得更好的效果。具体来说,一些先进的方案采用了多模态相似度测量来指导未知类别的预测,并允许后续根据实际情况调整初始估计值。这种方法充分利用了已有经验和当前观察相结合的优势,实现了更加灵活高效的模式匹配[^4]。 ```python import torch.nn.functional as F from torchvision import models class FewShotClassifier(nn.Module): def __init__(self, base_model='resnet50', num_classes=20): super(FewShotClassifier, self).__init__() self.feature_extractor = getattr(models, base_model)(pretrained=True) self.classifier = nn.Linear(self.feature_extractor.fc.in_features, num_classes) def forward(self, x_support, y_support, x_query): z_support = self.feature_extractor(x_support).mean(dim=[2, 3]) z_query = self.feature_extractor(x_query).mean(dim=[2, 3]) prototypes = [] for c in range(num_classes): mask = (y_support == c) prototype = z_support[mask].mean(0) prototypes.append(prototype.unsqueeze(0)) prototypes = torch.cat(prototypes) logits = -torch.cdist(z_query, prototypes)**2 return F.softmax(logits, dim=-1) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值