机器学习的基本原理

最新推荐文章于 2024-01-09 18:02:59 发布

SrdLaplaceGua

最新推荐文章于 2024-01-09 18:02:59 发布

阅读量6.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习感悟文章标签：机器学习泛化误差方差偏差误差

本文链接：https://blog.youkuaiyun.com/SrdLaplace/article/details/79655689

机器学习同时被 2 个专栏收录

57 篇文章

订阅专栏

感悟

9 篇文章

订阅专栏

本文深入浅出地介绍了机器学习的几个核心原理，包括Hoaffding定理、bias-variance-error分解以及No Free Lunch Theorem等内容，帮助读者理解机器学习算法为何有效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

要学习机器学习，首先得想明白机器学习为啥是可信的，下面就介绍几个我个人认为的机器学习的基础原理：

Hoaffding定理：机器学习泛化误差上界
bias & variance & error：模型预测误差的成分
No Free Lunch Theorem：不存在在任何情况下准确性都好的模型

Hoaffding定理

Hoaffding定理是泛化能力的一种解释，现在在这我给出Hoaffding定理的证明和释义。

Jensen不等式

若函数 $f (x)$ 再 $x∈[a,b]x\in [a,b]$ 上 $f′′(x)>0f^{''}(x)>0$ ，令

$q∈[0,1],F(x)=qf(b)+(1−q)f(a)−f(qb+(1−q)a)q\in [0,1],F(x)=qf(b)+(1-q)f(a)-f(qb+(1-q)a)$

那么

$F (0) = 0$

$F (1) = 0$

$F′(q)=f(b)−f(a)−(b−a)f′(qb+(1−q)a)=(b−a)(f′(θ)−f′(qb+(1−q)a))F^{'}(q)=f(b)-f(a)-(b-a)f^{'}(qb+(1-q)a)=(b-a)(f^{'}(\theta)-f^{'}(qb+(1-q)a))$

由 $f′′(x)>0f^{''}(x)>0$ 可知 $F′(q)F^{'}(q)$ 先小于0然后大于0，所以 $F (q) < = 0$ 即函数 $x∈[a,b]x\in [a,b]$ 时 $f′′(x)>0f^{''}(x)>0$ 时， $q∈[0,1],qf(b)+(1−q)f(a)>f(qb+(1−q)a)q\in [0,1],qf(b)+(1-q)f(a)>f(qb+(1-q)a)$

Markov不等式

假设 $x$ 是大于 $0$ 的随机变量，则有

$E[x]=∫0∞xp(x)dx>∫0ϵ0p(x)dx+∫ϵ∞ϵp(x)dx>ϵP(x>ϵ)E[x]=\int_0^\infty xp(x)dx>\int_0^\epsilon 0p(x)dx+\int_\epsilon^\infty \epsilon p(x)dx >\epsilon P(x>\epsilon)$

即 $P(x>ϵ)<E[x]ϵP(x>\epsilon)<\frac{E[x]}{\epsilon}$

引理

若 $x∈[a,b],E[x]=0,t>0x\in [a,b],E[x]=0,t>0$ ，那么

$P(x>s)=P(etx>ets)<E[etx]estP(x>s)=P(e^{tx}>e^{ts})<\frac{E[e^{tx}]}{e^{st}}$

由 $e^{tx}$ 为凸函数可知

$etx<b−xb−aeta+x−ab−aetbe^{tx}<\frac{b-x}{b-a}e^{ta}+\frac{x-a}{b-a}e^{tb}$

那么

$E[etx]<b−E[x]b−aeta+E[x]−ab−aetbE[e^{tx}]<\frac{b-E[x]}{b-a}e^{ta}+\frac{E[x]-a}{b-a}e^{tb}$

令 $p=t(b−a),h=ab−ap=t(b-a),h=\frac{a}{b-a}$ ，那么有

$bb−aeta−ab−aetb=eta[bb−a−ab−aet(b−a)]=eta[1+ab−a−ab−aet(b−a)]=exp(ph+ln(1+h−hep))\frac{b}{b-a}e^{ta}-\frac{a}{b-a}e^{tb}=e^{ta}[\frac{b}{b-a}-\frac{a}{b-a}e^{t(b-a)}]=e^{ta}[1+\frac{a}{b-a}-\frac{a}{b-a}e^{t(b-a)}]=exp(ph+ln(1+h-he^{p}))$

令 $f(p)=ph+ln(1+h-he^{p})$ ，那么

$f (0) = 0$

$f′(p)=h−hep1+h−hepf^{'}(p)=h-\frac{he^{p}}{1+h-he^{p}}$

$f′(0)=0f^{'}(0)=0$

$f′′(p)=−hep(1+h−hep)+(hep)2(1+h−hep)2=(−hep1+h−hep)(1+h1+h−hep)f^{''}(p)=-\frac{he^{p}(1+h-he^{p})+(he^{p})^2}{(1+h-he^{p})^2}=(-\frac{he^p}{1+h-he^{p}})(\frac{1+h}{1+h-he^{p}})$

$f′′(p)=y(1−y)<14f^{''}(p)=y(1-y)<\frac{1}{4}$

泰勒展开可得：

$f(p)=f(0)+pf′(0)+p22f′′(θ)<p28f(p)=f(0)+pf^{'}(0)+\frac{p^2}{2}f^{''}(\theta)<\frac{p^2}{8}$

则 $E[etx]<exp[(b−a)28t2]E[e^{tx}]<exp[\frac{(b-a)^2}{8}t^2]$
则 $P(x>s)<exp[−st+(b−a)28t2]P(x>s)<exp[-st+\frac{(b-a)^2}{8}t^2]$

Hoaffding定理证明

设 $r_1，r_2,...,r_n$ 为模型的一组误差，为了简便，让他们分布在 $[- 0.5, 0.5]$ ，均值为0，令

$r^=∑irin,r=E[r^]\hat r=\frac{\sum_i r_i}{n},r=E[\hat r]$

那么

$P(r^−r>ϵ)=e−tϵE[et∑iri/n]=e−tϵ∏iE[etri/n]<exp[−tϵ+t28n]P(\hat r-r>\epsilon)=e^{-t\epsilon}E[e^{t\sum_ir_i/n}]=e^{-t\epsilon}\prod_i E[e^{tr_i/n}]<exp[-t\epsilon+\frac{t^2}{8n}]$

令 $t=4nϵt=4n\epsilon$ ，可得

$P(x>s)<exp[−2nϵ2]P(x>s)<exp[-2n\epsilon^2]$

那么如果 $k$ 个模型训练的模型误差都满足 $P(r<r^+ϵ)<(1−kP(r−r^>ϵ))P(r<\hat r+\epsilon)<(1-kP(r-\hat r>\epsilon))$ （hoeffding不等式的对称性），则

$P(r<r^+ϵ)<(1−k∗exp[−2nϵ2])P(r<\hat r+\epsilon)<(1-k*exp[-2n\epsilon^2])$

令 $δ=k∗exp[−2nϵ2]\delta = k*exp[-2n\epsilon^2]$ ，则模型以 $1−δ1-\delta$ 的概率满足任意训练的模型满足

$r<r^+12nln⁡kδr<\hat r+\sqrt{\frac{1}{2n}\ln{\frac{k}{\delta}}}$

这就给了训练出来的模型一个误差上界，若是参数域为无穷，可用VC维来给定上界

个人不喜欢这个解释，不直观，太繁琐，而且是个loose bound，让感觉很难受。

bias & variance & error

机器学习学到的模型预测的结果和真实结果的误差来源于三个地方，也就是bias（偏差），variance（方差），error（噪声），用公式可以表示为：

$ExL(f(x)+ϵ,f~(x)+[f^(x)−f^(x)])=F[ϵ,f(x)−f^(x),f^(x))−f~(x)]E_xL(f(x)+\epsilon,\tilde f(x)+[\hat f(x)-\hat f(x)])=F[\epsilon,f(x)-\hat f(x),\hat f(x))-\tilde f(x)]$

$f (x)$ 是客观世界的模型， $ϵ\epsilon$ 是观察噪声或者是样本产生过程中的系统噪声， $f^(x)\hat f(x)$ 是当前模型下能够学习到的最好的模型参数下的模型， $f~(x)\tilde f(x)$ 是用有限的训练样本实际训练出来的模型， $L$ 为损失函数， $E_xL$ 为泛化误差。

我们把 $∣f(x)−f^(x)∣|f(x)-\hat f(x)|$ 成为bias（偏差），它越大说明本身模型越简单（欠拟合）
$∣f^(x))−f~(x)∣|\hat f(x))-\tilde f(x)|$ 成为variance（方差），它越大说明模型过拟合越严重（把噪声当作是模型的输出进行拟合）。

Bias&Var

欠拟合产生的原因是拟合的模型过于简单，无法拟合真正的客观模型。
过拟合产生的原因是数据量太少，无法把模型的参数拟合得很好。

我们在进一步的挖掘一下，过拟合的原因从而更深刻的体会一下正则化的作用。

the amount of parameter vs the amount of data

Chebyshev 不等式 / 大数定理

由Markov不等式 $P(x>ϵ)<E[x]ϵP(x>\epsilon)<\frac{E[x]}{\epsilon}$ 可得

$P[(1n∑i=1nX−EX)2>ϵ]<E[(1n∑i=1nX−EX)2]ϵ=σ2ϵn2P[(\frac{1}{n}\sum_{i=1}^nX-EX)^2>\epsilon]<\frac{E[(\frac{1}{n}\sum_{i=1}^nX-EX)^2]}{\epsilon}=\frac{\sigma^2}{\epsilon n^2}$

数据量和模型参数误差的关系

模型参数可以看成是模型维度的数据统计量（例如模型就是预测值就是直接输出训练集的平均值，那么参数就直接是数据的平均），那么，当参数多了之后，相当于把数据分给不同的参数减少，这可能有点难以理解，可以想象成一个决策树，分支之后每个分支的数据量减少，分支越多，每个分支的数据量就越少。或者还可以换个角度理解，确定A参数之后在确定B参数，B参数的误差会因为A参数的误差而增大。所以参数越多，误差就越大。
正则化为什么可以降低泛化误差呢，因为正则化相当于给参数之间一定的关系，例如 $l_1$ 正则化相当于去掉一些参数，从而使得分配到每个参数上的数据量增多，而 $l_2$ 正则化相当于参数之间共同进退，把异常值的贡献平均分配到各个参数上，因而参数分配数据量就不是数据量除以参数个数了，不同参数之间的相关性使得数据“公用”到各个参数上。

虽然这个解释不是很严谨，但是我个人感觉比较容易理解和直观。

P.S. 我自己自瞎想的，如有错误，还请有缘人指正

No Free Lunch Theorem

若学习算法 $L_a$ 在某些问题（数据集）上比学习算法 $L_b$ 要好，那么必然存在另一些问题（数据集），在这些问题中 $L_b$ 比 $L_a$ 表现更好。
符号说明：

$Ξ\Xi$ :样本空间
$H$ :假设空间
$L_a$ :学习算法
$P(h|X,L_a)$ : 算法 $L_a$ 基于训练数据 $X$ 产生假设 $h$ 的概率
$f$ :代表希望学得的真实目标函数
ote是off-training error，即训练集外误差
$Eote(La∣X,f)=∑h∑x∈Ξ−XP(x)I(h(x)≠f(x))P(h∣X,La)E_{ote}(L_a|X,f)=\sum_h\sum_{x\in \Xi-X}P(x)I(h(x)≠f(x))P(h|X,L_a)$ ：算法 $L_a$ 学得的假设在训练集外的所有样本上的误差的期望（这里的累加可以看作是积分的简化，积分更严谨的感觉；查阅文献后发现，该定理只是定义在有限的搜索空间，对无限搜索空间结论是否成立尚不清楚）

因为是存在性问题，我们就假设真实分布 $(x, f (x))$ 的 $f$ 在假设空间内均匀分布，那么
$Ef[Eote(La∣X,f)]=∑f∑h∑x∈Ξ−XP(x)I(h(x)≠f(x))P(h∣X,La)P(f)E_f[E_{ote}(L_a|X,f)]=\sum_f\sum_h\sum_{x\in \Xi-X}P(x)I(h(x)≠f(x))P(h|X,L_a)P(f)$