利用多Lora节省大模型部署成本｜得物技术

原创

于 2024-08-20 18:05:01 发布 · 3.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习

一、背景

近期，我们在大模型集群的部署过程中遇到了一些挑战。公司有多个业务场景，每个场景都基于自身的数据进行微调，训练出相应的大模型并上线。然而，这些场景的调用量并不高，同时大模型的部署成本较为昂贵，这造成了资源的浪费。

本文将介绍我们如何利用多Lora技术，将多个场景合并部署，从而有效解决这一问题。同时，我们也将探讨大模型训练与推理过程中Lora技术的应用。

二、Lora是什么

Lora的概念

如果你去网上搜索"Lora"这个关键字，你一定会搜到下面这篇论文。

这就是Lora这个词出处。这一概念是由著名人工智能研究员Edward J. Hu于2021年提出的。Lora完整名称是低秩自适应（Low-Rank Adaptation）。虽然这个名称比较复杂，但其核心概念却相对容易理解。

以GPT3为例，该模型拥有1750亿个参数。为了使大模型适应特定的业务场景，我们通常需要对其进行微调。如果对大模型进行全参数微调，因其参数数量庞大，成本将非常高。Lora技术的解决方案是，仅对不到2%的参数进行微调，其他参数则保持不变。相较于全参微调GPT-3（175B），Lora最多能够将训练参数的数量减少约10,000倍，GPU内存需求也减少三倍。

那么，Lora是如何冻结参数的呢？接下来，我们将展示Lora的经典原理图。