Small Pre-trained Language Models Can be Fine-tuned as Large Models via Over-Parameterization

828 篇文章

已下架不支持订阅

本文研究如何通过过度参数化在微调期间提升小规模预训练语言模型(PLM)的性能,而不增加推理延迟。通过矩阵乘积算子分解参数矩阵,提出静态和动态策略,实验表明这种方法能显著改善小型PLM的表现,甚至超过大型PLM。未来工作将探索更多张量分解方法和应用范围。

本文是LLM系列文章,针对《Small Pre-trained Language Models Can be Fine-tuned as Large Models via Over-Parameterization》的翻译。

小型预训练语言模型可以通过过度参数化微调为大型模型

摘要

通过缩放模型大小,大型预训练语言模型(plm)在各种自然语言处理任务中表现出了显著的性能,大多数都大大优于小型plm。然而,由于计算成本高,大量的参数也限制了大型plm在实际系统中的适用性。在本文中,我们只关注在微调期间扩大plm的参数,以从过度参数化中获益,同时不增加推理延迟。给定一个相对较小的PLM,我们通过使用矩阵乘积算子(一种高效且几乎无损的分解方法)将其包含的参数矩阵分解为一组高维张量来对其进行过参数化。考虑到效率,我们进一步提出了静态和动态两种策略来选择最重要的参数矩阵进行过参数化。大量的实验表明,我们的方法可以显著提高小型plm的微调性能,甚至可以帮助小型plm优于3倍参数化的大型plm。我们的代码可以在https://github.com/zfgao66/OPF上公开获得。

1 引言

2 相关工作

3 前言

4 方法

5 实验

6 结论

在本文中,我们提出了一种新的超参数化框架OPF,它可以在微调过程中扩大plm的参数数量,从而从更多的参数中获益。在我们的OPF中,我们引入了矩阵乘积算子方法,将PLMs中的参数矩阵分解为高阶张量以增加参数数量,并设计了静态和动态策略来选择最重要的参数矩阵进行过参数化。大量的实验表明,我们的OPF方法可以显著提高小型

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值