【模型选择 + 过拟合和欠拟合】

原创已于 2022-06-17 17:08:12 修改 · 166 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法

于 2022-06-17 00:33:59 首次发布

沐神动手学ai学习笔记同时被 2 个专栏收录

14 篇文章

订阅专栏

深度学习

14 篇文章

订阅专栏

本文探讨了训练误差和泛化误差的概念，强调了模型选择的重要性。介绍了验证数据集和测试数据集的使用，以及K折交叉验证的方法。针对过拟合和欠拟合，解释了模型容量与数据复杂度的关系，并提出了权重衰退和丢弃法作为正则化手段。权重衰退通过L2正则项限制参数大小，丢弃法则通过随机丢弃神经元来控制复杂度。最后，讨论了数值稳定性问题，特别是深度学习中梯度消失和梯度爆炸的现象及其影响。

模型选择

训练误差和泛化误差

训练误差：模型在训练数据上的误差
泛化误差：模型在新数据上的误差

例子：根据摸考成绩来预测未来考试分数在过去的考试中表现很好（训练误差）不代表未来考试一定会好（泛化误差）

学生A通过背书在摸考中拿到很好成绩
学生B知道答案后面的原因

验证数据集和测试数据集

验证数据集：一个用来评估模型好坏的数据集
例如拿出50%的训练数据
不要跟训练数据混在一起（常犯错误）
测试数据集：只用一次的数据集。例如
未来的考试
我出价的房子的实际成交价
用在Kaggle私有排行榜中的数据集

K则交叉验证

在没有足够多数据时使用（这是常态）
算法：
将训练数据分割成K块
- For i = 1,…,K
  - 使用第ⅰ块作为验证数据集，其余的作为训练数据
- 报告K个验证集误差的平均
常用：K=5或10

过拟合和欠拟合

在这里插入图片描述
模型容量

拟合各种函数的能力
低容量的模型难以拟合训练数据
高容量的模型可以记住所有的训
练数据

数据复杂度
多个重要因素
- 样本个数
- 每个样本的元素个数
- 时间、空间结构
- 多样性

总结

模型容量需要匹配数据复杂度，否则可能导致欠拟合和过拟合
统计机器学习提供数学工具来衡量模型复杂度
实际中一般靠观察训练误差和验证误差

常见的过拟合处理方法

权重衰退

使用均方范数作为硬性限制

通过限制参数值的选择范围来控制模型容量
$min⁡l(w,b)s.t.∣∣w∣∣2≤θ\min l(w,b)\quad s.t.||w||^2\le\theta$
通常不限制偏移b（限不限制都差不多）
小的 $θ\theta$ 意味着更强的正则项

使用均方范数作为柔性限制

对每个 $θ\theta$ ，都可以找到 $λ\lambda$ 使得之前的目标函数等价于下面：
$min⁡l(w,b)+λ2∣∣w∣∣2\min l(w,b)+\frac\lambda 2||w||^2$
可以通过拉格朗日乘子证明
超参数 $λ\lambda$ 控制了正则项的重要程度
- $λ=0\lambda=0$ ：无作用
- $λ→∞,w∗→0\lambda \rightarrow \infty,w^*\rightarrow0$

在这里插入图片描述
参数更新过程看权重衰退

计算梯度
$∂∂w(l(w,b)+λ2∣∣w∣∣2))=∂l(w,b)∂w+λw\frac{\partial}{\partial w}(l(w,b)+\frac\lambda2||w||^2))=\frac{\partial l(w,b)}{\partial w}+\lambda w$
更新参数时使用梯度下降 $wt+1=wt−α∂l(w,b)∂wtw_{t+1}=w_t-\alpha\frac{\partial l(w,b)}{\partial w_t}$ ：
$wt+1=(1−αλ)wt−α∂l(w,b)∂wtw_{t+1}=(1-\alpha\lambda)w_t-\alpha\frac{\partial l(w,b)}{\partial w_t}$
通常情况下 $α∗λ\alpha*\lambda$ 小于1的，因此 $w_t$ 乘以一个比1小的数，又减去一个正数，被称为权重衰退。

总结

权重衰退通过L2正则项使得模型参数不会过大，从而控制模型复杂度
正则项权重是控制模型复杂度的超参数

丢弃法（droput）

动机

一个好的模型需要对输入数据的扰动鲁棒
- 使用有噪音的数据等价于Tikhonov正则
- 丢弃法：在层之间加入噪音

无偏差的加入噪音

第对 $x$ 加入噪音 $x^{'}$ ，我们期望：
$E(x^{'})=x$
丢弃法对于每个元素进行如下搅动：
$xi′={0withprobablitypxi1−potherwisex_i^{'}=\left\{ \begin{array}{rcl} 0 & & {with \quad probablity\quad p}\\ \frac{x_i}{1-p} & & {otherwise} \end{array} \right.$
其中 $E(xi′)=p∗0+(1−p)∗xi1−p=xiE(x_i^{'})=p*0+(1-p)*\frac{x_i}{1-p}=x_i$

丢弃法的使用

通常将丢弃法作用在隐藏全连接层的输出上

$h=σ(W1x+b1)h=\sigma(W_1x+b_1)$ $h^{'}=dropout(h)$ $o=W_2h^{'}+b_2$ $y = s o f t m a x (o)$
在这里插入图片描述

丢弃法只在训练过程中使用，验证、推理过程不使用

总结

丢弃法将一些输出项随机置0来控制模型复杂度
常作用在多层感知机的隐藏层输出上
丢弃概率是控制模型复杂度的超参数

数值的稳定性

当神经网络深度较深时，极容易出现数值不稳定的情况。

神经网络的梯度

考虑如下有 $d$ 层的神经网络
$ht=ft(ht−2)andy=l⋅fd⋅...⋅f1(x)h^t=f_t(h^{t-2})\quad and\quad y=l\cdot f_d\cdot ...\cdot f_1(x)$
计算损失 $l$ 关于参数 $W_t$ 的梯度
$∂l∂Wt=∂l∂hd∂hd∂hd−1...∂ht+1∂ht∂ht∂Wt\frac{\partial l}{\partial W^t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^{t+1}}{\partial h^t}\frac{\partial h^t}{\partial W^t}$
这里面都是矩阵的乘法，计算量非常大

数值稳定性常见的两个问题

梯度消失： $1.5100≈4×10171.5^{100}\approx4\times10^{17}$
梯度爆炸： $0.8100≈2×10−100.8^{100}\approx2\times10^{-10}$

举例说明

假设有以下MLP（为了简单省略偏置项）
$ft(ht−1)=σ(Wtht−1)其中σ是激活函数f_t(h^{t-1})=\sigma(W^th^{t-1})\quad其中\sigma是激活函数$ $∂ht∂ht−1=diag(σ′(Wtht−1))(Wt)T\frac{\partial h^t}{\partial h^{t-1}}=diag(\sigma^{'}(W^th^{t-1}))(W^t)^T$ $∏i=td−1∂hi+1∂hi=∏i=td−1diag(σ′(Wihi−1))(Wi)T\prod\limits_{i=t}^{d-1}\frac{\partial h^{i+1}}{\partial h^i}=\prod\limits_{i=t}^{d-1}diag(\sigma^{'}(W^ih^{i-1}))(W^i)^T$

①梯度爆炸

使用Relu作为激活函数
$σ(x)=max⁡(0,x)andσ′(x)={1x>00otherwise\sigma(x)=\max(0,x)\quad and\quad\sigma^{'}(x)=\left\{ \begin{array}{rcl} 1 & & {x>0}\\ 0 & & {otherwise} \end{array} \right.$
$∏i=td−1∂hi+1∂hi=∏i=td−1diag(σ′(Wihi−1))(Wi)T\prod\limits_{i=t}^{d-1}\frac{\partial h^{i+1}}{\partial h^i}=\prod\limits_{i=t}^{d-1}diag(\sigma^{'}(W^ih^{i-1}))(W^i)^T$ 的元素主要来自于 $∏i=td−1(Wi)T\prod\limits_{i=t}^{d-1}(W^i)^T$
如果 $d - t$ 很大，同时不对参数 $W^I$ 的值进行限制，那么最后结果将会很大，造成梯度爆炸