Paper的任务
在下游任务中有效地利用含噪声的预训练基础模型
(与通常说的有噪声的标签学习不同,文章假设标签噪声存在于通常不可访问的预训练数据中,但其目的是在下游任务上理解和缓解标签噪声)
任务的科学问题
本文任务虽然是:在下游任务中有效地利用含噪声的预训练基础模型,但其实其本质科学问题是:如何在存在数据噪声的情况下保持和提升模型的泛化能力。
原因是:尽管预训练模型在特定领域表现出色,但噪声数据可能导致模型学习到错误的模式,从而影响其在新任务上的表现。
所以,只要是涉及从大规模含噪声数据集中学习并提升模型泛化能力的问题,都可以试试本文的方法。
科学问题的challenges
- 噪声数据的识别与影响评估:在大规模预训练数据集中,噪声不可避免的存在,但难以识别这些噪声并评估基于此类数据预训练的模型在下游任务上的可迁移性和泛化性产生的不利影响。
- 黑盒模型的调整:在实际应用中,预训练模型的细节可能对用户不可见(例如,ChatGPT等专有模型只提供了API,无法进行局部微调和诊断),这要求提出的解决方案能够在信息有限的情况下进行有效的模型调整。
文章在Argue什么?
- 现有方法的局限性:以往的研究和实践主要集中在使用干净数据对基础模型进行预训练和微调,而没有充分考虑到大规模预训练数据集中存在的噪声问题。
- 现有实践的局限性:现有的实践(先预训练再微调)直接在大规模数据集上预训练模型,然后将其应用于下游任务,而没有对潜在的噪声问题进行处理。
- 噪声数据的影响:文章指出,噪声不总是负面影响,轻微的噪声在某些情况下可能对领域内(ID)任务的性能有益,但噪声总是损害领域外(OOD)任务的性能(研究者在本文实验中发现的结论)。
motivation
大规模预训练数据集中不可避免地存在噪声,想要提高模型在多样化下游任务中的泛化能力和实用性(实际应用中用户硬件跟不上或模型只开放了api),应该用一种新的、轻量级的调优方法(NMTune),重塑预训练的特征空间,去降低噪声预训练数据的影响。
方法及框架
-
方法 (Noisy Model Tuning(NMTune))
-
- 特征空间转换(调整特征表示):通过在预训练模型的特征提取器之上引入一个可学习的转换层(一个多层感知机,MLP),将原始特征空间映射到一个新的特征空间。
- 正则化技术:NMTune采用了三种正则化策略来优化新特征空间的质量:
-
-
- 一致性正则化(Consistency Regularization):通过最小化原始预训练特征和转换后特征之间的差异,鼓励新特征空间保持与原始预训练知识一致。
- 协方差正则化(Covariance Regularization):通过调整特征空间的协方差矩阵,促使不同特征维度之间的信息更加独立,避免特征冗余。
-