算法进阶 | 小型语言模型综述(推荐收藏!)

本文来源公众号“算法进阶”,仅用于学术分享,侵权删,干货满满。

原文链接:小型语言模型综述

less is more?  近期苹果公司热衷于研究小型语言模型(SLMs),因其高效性和在执行各种语言任务时所需的计算资源较少,变得越来越重要,使它们非常适合于包括设备端、移动设备、边缘设备等多种场景。

在本文中,我们对小型语言模型进行了全面的综述,重点介绍了它们的架构、训练技术和模型压缩技术。

1 引言

尽管大型语言模型(LLMs)在广泛的基准测试和现实场景中展示了出色的性能,它们的成功却伴随着显著的成本。LLMs 的训练和运行资源密集,需耗费大量计算和数据资源。这通常意味着它们的训练和推理都需要在集中化和专业化的硬件上进行。

为了应对这些挑战,越来越多的研究开始关注小型语言模型(SLMs)。小型语言模型的目标是保持大型语言模型的准确性和/或适应性,同时受到某些约束条件的限制,如训练或推理硬件、数据可用性、带宽或生成时间。提升模型在这些约束条件下的性能,可以帮助实现隐私保护、成本节约或在消费级设备上运行的目标。

对小型语言模型进行综述的难点在于,“小型”和“大型”的定义是随时间和上下文变化的。例如,GPT-2 在2019年作为一个拥有15亿参数的“大型语言模型”,如今已经比本文综述中许多所谓的“小型”语言模型要小。然而,虽然模型规模在变化,小型语言模型的训练目标相对稳定。

在本综述中,我们将探讨支持构建和推理小型语言模型的架构、训练和模型压缩技术。此外,我们还总结了用于评估小型语言模型性能的基准数据集和常用的评估指标。为此,我们提出了一个新的分类法,用于沿着两条主轴组织这些方法:

  • 在小型语言模型的预处理(模型架构)、训练和后处理(模型压缩)中使用的技术;以及

  • 该技术试图优化的约束条件,如推理计算、训练时间、速度等。

表1(技术)和表2(约束条件)展示了这些主轴的概览。

需要注意的是,在任何一个目标上的进展不一定意味着在其他目标上也有进展。事实上,往往存在权衡。例如,量化感知训练等内存高效的训练方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通过使用混合精度表示权重和梯度,它们允许使用更少的内存来进行训练或微调。最后,虽然最近已经有几篇关于大型语言模型及其学习方法的综述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但据我们所知,这是首篇专注于小型语言模型的综述。

综述的组织结构

本综述分为三个主要部分,每个部分都涵盖了优化小型语言模型的关键方面。第2节关注模型架构,包括轻量化设计、高效的自注意力近似以及神经架构搜索以高效构建更小的模型。第3节涵盖高效的预训练和微调技术,以在资源受限的情况下提升小型语言模型的性能。第4节探讨了模型压缩技术,如剪枝、量化和知识蒸馏,它们可以在不显著牺牲精度的情况下减少模型的大小和延迟。第5节提供了基准数据集和评估指标的概述,提供了评估这些方法有效性的综合框架。第6节讨论了小型语言模型所启用的应用,按照约束条件进行分类。最后,第7节提出了针对小型语言模型的开放性挑战讨论。

主要贡献总结

本文的主要贡献如下:

  • 针对从业者提供了一篇全面的小型语言模型综述。我们还综述了文献中提到的问题设置、评估指标和数据集。

  • 我们引入了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值