低秩信息收集_0109-优快云博客

系列博客目录

这段话主要讨论的是在大规模模型和延迟敏感应用场景下，传统的模型适配方法存在的一些问题。

适配器层和输入层激活的优化：为了提高模型的适配效率，研究者们通常通过添加适配器层或者优化输入层的激活函数来调整模型，以便更好地适应不同的任务或数据。这些方法在一定程度上可以减少训练时的计算量或提高性能。
局限性：尽管适配器层能减少需要调整的参数数量，但它们在推理时可能导致一些问题：
- 顺序处理：适配器层通常需要按顺序进行计算，而这种处理方式可能会增加推理的延迟（即处理时间）。在延迟敏感的应用中（比如实时推理任务），延迟的增加可能会影响模型的实际表现。
- 单GPU环境：如果仅使用单个GPU进行推理，适配器层可能无法充分利用GPU的并行计算能力，进一步增加延迟。
- 模型分片：在处理大型模型时，可能需要将模型分片到多个GPU或机器上。如果适配器层无法有效地进行分布式处理，模型的适配会变得更加复杂，从而增加延迟和计算资源的消耗。

综上所述，这段话表达了传统的适配器层方法在特定环境下（如大模型、单GPU或分布式环境下）可能会面临的一些性能瓶颈和延迟问题。

在这里插入图片描述
在这段文字中提到的 LoRA 微调 方法之所以只需要重新训练少量的参数，是因为它的核心思想是将模型的参数增量（更新部分）限制为一个低秩矩阵的形式。这种方法大大减少了需要训练的参数量，原因如下：

分离基础模型参数和增量参数：
- LoRA 方法将模型的参数更新表示为一个低秩矩阵的形式（即 $\Delta \Phi(\Theta)$ ）。
- 原始模型的参数 $\Phi_0$ 是冻结的，保持不变。
- 只需要训练新增的低秩增量参数 $\Delta \Phi(\Theta)$ ，而不是整个模型的参数。
低秩矩阵的压缩效果：
- 在 LoRA 方法中，增量参数（ $\Delta \Phi$ ）被设计为两个小矩阵（通常是维度较低的矩阵），通过矩阵乘法来表示更新。
- 这种低秩结构的参数化方式显著减少了需要训练的参数总量，从而降低了计算资源和存储需求。
只需调整任务相关的部分：
- LoRA 微调只关注特定任务所需的参数调整，而不需要重新训练整个模型的所有参数。
- 对于大型模型（如 GPT-3）来说，原始模型的参数量极大，而 LoRA 的低秩参数相对很小，因此只需要训练少量参数。

因此，相较于全面微调（需要对整个模型的参数进行更新和存储），LoRA 微调极大地降低了训练参数的规模，同时保留了较好的性能。这就是为什么在文中说 “只需要重新训练少量的参数”。

低秩矩阵的压缩效果主要是利用了矩阵分解的数学特性来降低参数量。以下是具体的原因：

假设我们有一个需要更新的大矩阵 $\Delta \Phi$ ，其维度为 $\times k$ 。在常规方法中，我们需要直接优化整个矩阵 $\Delta \Phi$ ，这会导致以下参数量：

$\text{参数总量} = d \times k$

在 LoRA 中，假设 $\Delta \Phi$ 是低秩的，即它可以被分解为两个小矩阵 $A$ 和 $B$ 的乘积：

$\Delta \Phi = A \cdot B$

其中：

在这种情况下，参数总量变成：

$\text{参数总量} = (d \times r) + (r \times k)$

由于 $\ll \min(d, k)$ ，参数量相比 $\times k$ 会显著减少。

这归因于矩阵的秩，即一个矩阵的列向量或行向量的线性独立性。对于高维矩阵来说，实际上有许多列向量是高度相关的，因此整个矩阵的秩通常比矩阵的行数或列数小很多。也就是说，原始矩阵的信息可以被有效地压缩到一个低秩子空间中，而不会丢失重要的信息。

在 LoRA 方法中，通过假设参数更新矩阵 $\Delta \Phi$ 是低秩的：

在实际应用中，优化 $\Delta \Phi$ 的直接方法需要显式存储并计算完整的 $\times k$ 矩阵。使用 LoRA 的低秩分解后：

存储需求减少：需要存储的参数数量从 $\times k$ 降为 $\times r) + (r \times k)$ 。
计算效率提高：在实际推理或训练中，计算 $\Delta \Phi \cdot x$ （矩阵乘法）时，只需按顺序计算 $\cdot (B \cdot x)$ ，这个计算量也比直接计算大矩阵的乘法更低。