Large Language Models as Attribution Regularizers for Efficient Model Training

摘要

大语言模型(LLMs)在多个领域展现出卓越性能。然而,如何有效利用其丰富知识来训练下游较小模型仍是一个有待解决的挑战,尤其在表格数据学习领域,由于可解释性和效率因素,更倾向于使用简单模型。在本文中,我们提出一种新颖且简单的方法,将大语言模型生成的全局任务特征归因融入到较小网络的训练过程中。具体而言,我们提出了一个归因匹配正则化项,使较小模型的训练动态与大语言模型提供的见解保持一致。通过这种方式,我们的方法在少样本学习场景中表现出色。值得注意的是,我们的方法仅需对大语言模型进行黑盒API访问,易于集成到现有训练管道中,且计算开销极小。此外,我们展示了该方法如何用于解决现实世界数据集中的常见问题,如数据偏斜和偏差。通过整合大语言模型的高级知识,即使训练数据有限或不均衡,我们的方法也能提高模型的泛化能力。我们通过在多个任务上进行广泛实验,验证了其有效性,证明了学习效率和模型稳健性的提升。

关键词

大语言模型;归因正则化;数据高效学习

1. 引言

最近,大语言模型(LLMs)在模型参数和训练数据方面的扩展推动了自然语言处理(NLP)领域的重大突破[8,12,24,49]。这些模型在各种评估范式中表现出色,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值