多年来,最好的人工智能模型变得越来越大。但在 2024 年,一些流行的大型语言模型已经小到可以在智能手机上运行。

发生了什么:顶级人工智能公司并没有将所有资源投入到构建大型模型中,而是推广了大型语言模型系列,这些模型提供了小型、中型和大型的选择。诸如 Microsoft Phi-3(大约有 38 亿、70 亿和 140 亿个参数的版本)、Google Gemma 2(20 亿、90 亿和 270 亿)和 Hugging Face SmolLM(1.35 亿、3.6 亿和 17 亿)等模型系列专注于小型模型。
故事发展:得益于知识蒸馏(使用较大的教师模型来训练较小的学生模型以匹配其输出)、参数修剪(删除影响较小的参数)、量化(通过用更少的位表示每个参数来减小神经网络大小)等技术,较小的模型变得更加强大,并且更加注重策划训练集以提高数据质量。除了性能、速度和价格之外,能够在相对低功耗的硬件上运行的能力对于各种用途来说都是竞争优势。
• 自 2019 年谷歌推出 T5 系列(五个模型,参数数量介于约 7700 万到 110 亿之间)以来,模型构建者就提供了包含各种规模成员的模型系列。OpenAI 的 GPT 系列的成功证明了更大模型的威力,该系列随着时间的推移从 1.17 亿个参数增长到假设的 1.76 万亿个参数。OpenAI 研究人员制定了缩放定律,似乎可以保证更大的模型、训练集和计算预算将带来可预测的性能改进。这一发现促使竞争对手构建越来越大的模型。
• 潮流在 2023 年初开始转变。Meta 的 Llama 2 的参数数量约为 70 亿、130 亿和 700 亿,权重开放。
• 2023 年 12 月,谷歌推出了 Gemini 系列,包括 Gemini Nano(18 亿个参数)。 2 月,该公司发布了小型开放权重系列 Gemma 1(20 亿和 70 亿个参数),随后又发布了 Gemma 2(90 亿和 270 亿个参数)。
• 微软于 2023 年 12 月推出了 Phi-2(27 亿个参数),并于 4 月推出了 Phi-3(38 亿、70 亿和 140 亿个参数)。
• 8 月,Nvidia 发布了 Minitron 模型。它结合使用提炼和修剪,将 Llama 3.1 从 80 亿个参数缩减到 40 亿个参数,将 Mistral NeMo 从 120 亿个参数缩减到 80 亿个参数,从而提高了速度并降低了计算成本,同时保持了几乎相同的准确度。
新闻背后:提炼、修剪、量化和数据管理是长期的做法。但这些技术之前从未产生过如此大小和能力比率的模型,这可能是因为经过提炼、修剪或量化的大型模型从未如此强大。
• 1989 年,贝尔实验室的 Yann LeCun 及其同事发表了《最佳脑损伤》,表明选择性删除权重可以减小模型的大小,在某些情况下还可以提高其泛化能力。
• 量化可以追溯到 1990 年,当时阿拉巴马大学的 E. Fiesler 及其同事在《光学神经网络的权重离散化范式》中展示了表示神经网络参数的各种方法。随着神经网络的普及和规模的增长,量化在 2010 年代重新兴起,这刺激了量化感知训练和训练后量化的改进。
• 2006 年,康奈尔大学的 Rich Caruana 及其同事发表了《模型压缩》,展示了如何训练单个模型来模仿多个模型的性能。谷歌大脑的 Geoffrey Hinton 及其同事在 2015 年发表了《在神经网络中提炼知识》,改进了 Caruana 等人的工作。并引入了术语“蒸馏”来描述一种更通用的模型压缩方法。
• 目前大多数小型模型都是在经过精心策划和清理的数据集上进行训练的。更高质量的数据使得从更少的参数中获得更高的性能成为可能。这是以数据为中心的人工智能的一个例子,即通过提高训练数据的质量来提高模型性能的做法。
现状:较小的模型大大拓宽了成本、速度和部署的选择。随着研究人员找到在不牺牲性能的情况下缩小模型的方法,开发人员正在获得构建盈利应用程序、提供及时服务以及将处理分发到互联网边缘的新方法。
(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

相关阅读:
关于译者

关注公众号看其它原创作品
坚持提供对你有用的信息
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。

被折叠的 条评论
为什么被折叠?



