本文会介绍over-parametrized(过参数化)、double descent、bias-variance trade-off概念。
主要是我在看Lora论文的过程中看到了“over-parametrized”这个概念,所以写一篇关于这个概念的博文。
总之就是说传统机器学习认为模型太复杂就会容易过拟合,但是太简单又会导致欠拟合,所以需要适中大小以权衡,也就是bias-variance trade-off。但是现在大模型基本上呈现bigger, better, stronger的趋势,大家发现了double descent现象,发现模型只要够over-parametrized,就可以超越传统机器学习的那个过拟合的分界点,呈现模型越大、效果越好的奇妙状态。
但Lora又认为说这个模型参数虽多但可能有冗余,因此只需微调模型参数的低秩矩阵即可实现模型微调任务。我最近刚看完的DeepSeek的注意力机制MLA也是先进行了一波压缩,我估计也可以用类似的理论来解释……
总之详情内容请见下文:
1. over-parametrized
在机器学习中,“over-parametrized”(过参数化) 是指模型的参数数量远远超过了拟合训练数据所需的最小参数数量。也就是说,模型拥有的参数比必要的还要多。这种模型容量(capacity)非常大,理论上有可能完美地拟合训练数据,甚至导致过拟合。
在 LoRA(Low-Rank Adaptation)中,作者提到 “that the learned over-parametrized models in fact reside on a low intrinsic dimension”,意思是虽然大型模型具有大量的参数(过参数化),但实际学习到的模型只存在于一个低本质维度的子空间中。这意味着,模型的有效参数空间比表面上的参数数量要小得多。
因此,在微调大型模型时,不需要更新所有参数。LoRA 利用这一点,通过在低秩矩阵(低维子空间)上进行参数调整,实现了高效的微调。这既减少了计算资源的消耗,又保留了模型的性能。
简而言之,“over-parametrized” 在这里指的是模型的参数数量过多,但实际有用的信息或变化只发生在一个较低维度的空间中。这也是 LoRA 方法能够高效工作的理论基础。
2. double descent
就是这个状态,模型参数小和参数大的时候error都低,就是在threshold那里error高。
↑ 大意就是说,只要够过参数化,也能提高泛化性!
这当然是反传统机器学习中关于“过拟合”的假设的。
图中左边就是传统统计学习方法中的bias-variance trade-off问题,称为classical regime,此时模型的状态是under-parameterized;右边是interpolation threshold,称为modern interpolating regime,此时模型的状态是over-parameterized。
threshold即为模型参数与样本数相等的点(在多分类的情况下略有变化)。
double descent还与training epochs数有关。
3. bias-variance trade-off
↑ 在传统统计学领域,我们会希望模型参数正好匹配任务难度,模型越大,bias越低但variance越高,测试集效果会下降。
随着模型参数增多,从under-fitting到sweet spot再到over-fitting
本文撰写过程中参考的网络资料
- https://en.wikipedia.org/wiki/Double_descent
- 还没看但是应该看,以后看