Small Pre-trained Language Models Can be Fine-tuned as Large Models via Over-Parameterization

最新推荐文章于 2025-11-26 15:49:07 发布

UnknownBody

最新推荐文章于 2025-11-26 15:49:07 发布

阅读量146

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133861864

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文研究如何通过过度参数化在微调期间提升小规模预训练语言模型（PLM）的性能，而不增加推理延迟。通过矩阵乘积算子分解参数矩阵，提出静态和动态策略，实验表明这种方法能显著改善小型PLM的表现，甚至超过大型PLM。未来工作将探索更多张量分解方法和应用范围。

本文是LLM系列文章，针对《Small Pre-trained Language Models Can be Fine-tuned as Large Models via Over-Parameterization》的翻译。

摘要

通过缩放模型大小，大型预训练语言模型(plm)在各种自然语言处理任务中表现出了显著的性能，大多数都大大优于小型plm。然而，由于计算成本高，大量的参数也限制了大型plm在实际系统中的适用性。在本文中，我们只关注在微调期间扩大plm的参数，以从过度参数化中获益，同时不增加推理延迟。给定一个相对较小的PLM，我们通过使用矩阵乘积算子(一种高效且几乎无损的分解方法)将其包含的参数矩阵分解为一组高维张量来对其进行过参数化。考虑到效率，我们进一步提出了静态和动态两种策略来选择最重要的参数矩阵进行过参数化。大量的实验表明，我们的方法可以显著提高小型plm的微调性能，甚至可以帮助小型plm优于3倍参数化的大型plm。我们的代码可以在https://github.com/zfgao66/OPF上公开获得。

1 引言

2 相关工作

3 前言

4 方法

5 实验

6 结论

在本文中，我们提出了一种新的超参数化框架OPF，它可以在微调过程中扩大plm的参数数量，从而从更多的参数中获益。在我们的OPF中，我们引入了矩阵乘积算子方法，将PLMs中的参数矩阵分解为高阶张量以增加参数数量，并设计了静态和动态策略来选择最重要的参数矩阵进行过参数化。大量的实验表明，我们的OPF方法可以显著提高小型

了解本专栏