ROBUSTFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

本文是LLM系列文章,针对《ROBUSTFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response》的翻译。

ROBUSTFT:噪声响应下大型语言模型的鲁棒监督微调

摘要

监督微调(SFT)在使大型语言模型(LLM)适应特定领域或任务方面起着至关重要的作用。然而,正如实证实验所证明的那样,在实际应用中,收集的数据不可避免地包含噪声,这对下游任务的模型性能提出了重大挑战。因此,迫切需要一个抗噪声的SFT框架来增强下游任务中的模型能力。为了应对这一挑战,我们引入了一个鲁棒的SFT框架(ROBUSFT),该框架对下游任务数据进行噪声检测和重新标记。对于噪声识别,我们的方法采用具有推理增强模型的多专家协作系统来实现卓越的噪声检测。在去噪阶段,我们采用了一种上下文增强策略,该策略结合了最相关和最自信的知识,然后进行了仔细的评估,以生成可靠的注释。此外,我们引入了一种基于响应熵的有效数据选择机制,确保只保留高质量的样本进行微调。在五个数据集的多个LLM上进行的广泛实验证明了ROBUSFT在嘈杂场景中的出色性能。我们的代码和数据是公开的。

1 引言

2 前言

3 方法

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值