Lora里面说大模型参数是over-parametrized(过参数的),什么是over-parametrized?(另附相关概念:double descent和bias-variance trade

诸神缄默不语-个人优快云博文目录

本文会介绍over-parametrized(过参数化)、double descent、bias-variance trade-off概念。
主要是我在看Lora论文的过程中看到了“over-parametrized”这个概念,所以写一篇关于这个概念的博文。

总之就是说传统机器学习认为模型太复杂就会容易过拟合,但是太简单又会导致欠拟合,所以需要适中大小以权衡,也就是bias-variance trade-off。但是现在大模型基本上呈现bigger, better, stronger的趋势,大家发现了double descent现象,发现模型只要够over-parametrized,就可以超越传统机器学习的那个过拟合的分界点,呈现模型越大、效果越好的奇妙状态。
但Lora又认为说这个模型参数虽多但可能有冗余,因此只需微调模型参数的低秩矩阵即可实现模型微调任务。我最近刚看完的DeepSeek的注意力机制MLA也是先进行了一波压缩,我估计也可以用类似的理论来解释……

总之详情内容请见下文:

1. over-parametrized

在机器学习中,“over-parametrized”(过参数化) 是指模型的参数数量远远超过了拟合训练数据所需的最小参数数量。也就是说,模型拥有的参数比必要的还要多。这种模型容量(capacity)非常大,理论上有可能完美地拟合训练数据,甚至导致过拟合。

在 LoRA(Low-Rank Adaptation)中,作者提到 “that the learned over-parametrized models in fact reside on a low intrinsic dimension”,意思是虽然大型模型具有大量的参数(过参数化),但实际学习到的模型只存在于一个低本质维度的子空间中。这意味着,模型的有效参数空间比表面上的参数数量要小得多。

因此,在微调大型模型时,不需要更新所有参数。LoRA 利用这一点,通过在低秩矩阵(低维子空间)上进行参数调整,实现了高效的微调。这既减少了计算资源的消耗,又保留了模型的性能。

简而言之,“over-parametrized” 在这里指的是模型的参数数量过多,但实际有用的信息或变化只发生在一个较低维度的空间中。这也是 LoRA 方法能够高效工作的理论基础。

2. double descent

在这里插入图片描述
就是这个状态,模型参数小和参数大的时候error都低,就是在threshold那里error高。
↑ 大意就是说,只要够过参数化,也能提高泛化性!
这当然是反传统机器学习中关于“过拟合”的假设的。

图中左边就是传统统计学习方法中的bias-variance trade-off问题,称为classical regime,此时模型的状态是under-parameterized;右边是interpolation threshold,称为modern interpolating regime,此时模型的状态是over-parameterized。
threshold即为模型参数与样本数相等的点(在多分类的情况下略有变化)。

double descent还与training epochs数有关。

3. bias-variance trade-off

在这里插入图片描述
↑ 在传统统计学领域,我们会希望模型参数正好匹配任务难度,模型越大,bias越低但variance越高,测试集效果会下降。

随着模型参数增多,从under-fitting到sweet spot再到over-fitting

本文撰写过程中参考的网络资料

  1. https://en.wikipedia.org/wiki/Double_descent
  2. 还没看但是应该看,以后看
    1. 一分钟教你如何运用R包MASS,一个强大的扩展包带你快速分析数据和建模。 – 云生信
    2. 漫谈统计学习-Amazing double descent - 知乎:R语言后面的部分没看,我先简单学一下R语言再看
    3. A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning:机器学习过参数化理论综述
    4. 什么是过参数化,它在机器学习中起到了什么作用? - 知乎
    5. 过参数化、剪枝和网络结构搜索 - 知乎
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值