本文是LLM系列文章,针对《ROBUSTFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response》的翻译。
摘要
监督微调(SFT)在使大型语言模型(LLM)适应特定领域或任务方面起着至关重要的作用。然而,正如实证实验所证明的那样,在实际应用中,收集的数据不可避免地包含噪声,这对下游任务的模型性能提出了重大挑战。因此,迫切需要一个抗噪声的SFT框架来增强下游任务中的模型能力。为了应对这一挑战,我们引入了一个鲁棒的SFT框架(ROBUSFT),该框架对下游任务数据进行噪声检测和重新标记。对于噪声识别,我们的方法采用具有推理增强模型的多专家协作系统来实现卓越的噪声检测。在去噪阶段,我们采用了一种上下文增强策略,该策略结合了最相关和最自信的知识,然后进行了仔细的评估,以生成可靠的注释。此外,我们引入了一种基于响应熵的有效数据选择机制,确保只保留高质量的样本进行微调。在五个数据集的多个LLM上进行的广泛实验证明了ROBUSFT在嘈杂场景中的出色性能。我们的代码和数据是公开的。