机器学习——学习理论

一、经验风险最小化
1.1 经验风险最小化理论
  考虑线性分类模型hθ(x)=g(θTx)g(z)=1{z≥0}h_{\bm\theta}(\bm{x}) = g(\bm\theta^T\bm{x}) \\ g(z) = 1\{z \ge 0\}hθ(x)=g(θTx)g(z)=1{z0}考虑训练样本{(x(i),y(i))}i=1m\{(\bm{x}^{(i)}, y^{(i)})\}_{i=1}^m{(x(i),y(i))}i=1m,定义训练偏差ϵ^(hθ)=∑i=1m1{hθ(x(i))≠y(i)}/m\hat\epsilon(h_{\bm\theta}) = \sum_{i=1}^m1\{h_{\bm\theta}(\bm{x}^{(i)}) \ne y^{(i)}\} / mϵ^(hθ)=i=1m1{hθ(x(i))=y(i)}/m即训练样本分类错误所占的比例。对于非训练样本的同分布样本,定义一般误差ϵ(hθ)=p(h(x)≠y)\epsilon(h_{\bm\theta}) = p(h(\bm{x}) \ne y)ϵ(hθ)=p(h(x)=y)机器学习的目的是选用参数值使训练误差最小化,也成为经验风险最小化【Empirical Risk Minimization,ERM】,形如θ^=argmin ϵ^(hθ)\hat\bm\theta = argmin\ \hat\epsilon(h_{\bm\theta})θ^=argmin ϵ^(hθ)  从另一个方向讲,定义线性分类算法的集合H={hθ,θ∈Rp×1}H = \{h_{\bm\theta}, \bm\theta \in \bm{R}^{p×1}\}H={hθ,θRp×1}那么ERM也可以定义为h^=argminh∈H ϵ^(h)\hat{h} = argmin_{h \in H}\ \hat\epsilon(h) h^=argminhH ϵ^(h)更一般的,对于任意算法,包括深度学习等,上述表述均成立。ERM是一种合理的算法,可以带来较小的一般误差。

1.2 一致收敛
  首先介绍联合界引理,令A1,...AkA_1, ...A_kA1,...Ak表示k个事件,其不一定独立,则P(A1∪A2∪...∪Ak)≤P(A1)+...+P(Ak)P(A_1\cup A_2 \cup ... \cup A_k) \le P(A_1) + ... + P(A_k) P(A1A2...Ak)P(A1)+...+P(Ak)直观来讲,概率图的并集不大于每个概率图之和。
  再介绍霍夫丁【Hoeffding】不等式,对于独立同分布的随机变量z1,...,zmz_1, ..., z_mz1,...,zm,其服从于均值为ϕ\phiϕ的伯努利分布,即ϕ^=∑i=1mzi/m\hat\phi = \sum_{i=1}^m z_i / mϕ^=i=1mzi/m对于给定的γ\gammaγ,有p(∣ϕ^−ϕ∣>γ)≤2exp{−2γ2m}p(|\hat\phi - \phi| > \gamma) \le 2exp\{-2\gamma^2m\}p(ϕ^ϕ>γ)2exp{2γ2m}其直观意义为,根据中心极限定理,大量样本估计的ϕ^\hat\phiϕ^会收敛到ϕ\phiϕ为中心的高斯分布,而γ\gammaγ从高斯分布上取得了估计偏差的概率。但实际上,霍夫丁不等式对任意样本数量均成立。
  令H为包含k个假设的集合H={hk}H = \{h_k\}H={hk},其中的元素均是无参数的映射。对于给定数据集,从k个函数中选取一个,使得训练误差最小,形如h^=argminh∈H ϵ^(h)\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)h^=argminhH ϵ^(h)ERM理论认为,训练误差是一个对一般误差很好的近似,即若训练误差最小化,那么一般误差也不会太大。
  考虑逻辑回归中,任选h∈Hh \in HhH,并定义zi=1{h(x(i))≠y(i)}z_i = 1\{h(\bm{x}^{(i)}) \ne y^{(i)}\}zi=1{h(x(i))=y(i)}那么p(zi=1)=ϵ^(h)=∑i=1mzi/m\begin{aligned}p(z_i = 1)& = \hat\epsilon(h) \\ &= \sum_{i=1}^m z_i / m \end{aligned}p(zi=1)=ϵ^(h)=i=1mzi/m根据霍夫丁不等式,有p(∣ϵ(h)−ϵ^(h)∣>γ)≤2exp{−2γ2m}p(|\epsilon(h) - \hat\epsilon(h)| > \gamma) \le 2exp\{-2\gamma^2m\}p(ϵ(h)ϵ^(h)>γ)2exp{2γ2m}即训练误差是一般误差的很好的估计。再定义事件AAA∣ϵ(h)−ϵ^(h)∣>γ|\epsilon(h) - \hat\epsilon(h)|> \gammaϵ(h)ϵ^(h)>γ,即训练误差与一般误差相差较大,那么p(A)≤2exp{−2γ2m}p(A) \le 2exp\{-2\gamma^2m\}p(A)2exp{2γ2m}那么对于H内的所有映射,发生训练误差与一般误差相差较大的概率为p(A1∪A2∪...∪Am)≤∑i=1kp(Ai)≤2kexp{−2γ2m}\begin{aligned} p(A_1\cup A_2 \cup ... \cup A_m) \le& \sum_{i=1}^kp(A_i) \\ \le& 2kexp\{-2\gamma^2m\} \end{aligned}p(A1A2...Am)i=1kp(Ai)2kexp{2γ2m}那么一般误差与训练误差相差较小的概率为p(Aˉ)≥1−2kexp{−2γ2m}p(\bar{A}) \ge 1 - 2kexp\{-2\gamma^2m\} p(Aˉ)12kexp{2γ2m}即在一定的概率下,H中的所有h,都使得一般误差与训练误差相差在γ\gammaγ内。当mmm足够大时,H内的所有训练误差均收敛于一般误差,这称为一致收敛。
  根据一致收敛理论,给定γ\gammaγ与容错率σ\sigmaσ,可以计算出所需的样本数量mmm。令σ=2kexp{−2γ2m}\sigma = 2kexp\{-2\gamma^2m\}σ=2kexp{2γ2m}那么m≥1/2σ2⋅log(2k/σ)m \ge 1/2\sigma^2·log(2k / \sigma)m1/2σ2log(2k/σ)使得在1−σ1 - \sigma1σ的概率下,∣ϵ(h)−ϵ^(h)∣≤γ|\epsilon(h) - \hat\epsilon(h)| \le \gammaϵ(h)ϵ^(h)γ对所有H中的映射成立,这称为样本复杂度界。计算机科学一般认为,∀k,logk≤30\forall k, log k \le 30k,logk30,即在H中追加映射,样本数量也不会有太多的提升。一般来讲,在求解界时,一些常量是无关紧要的,故可以写成m=O(1/σ2⋅log(k/σ))m = O(1/\sigma^2·log(k / \sigma))m=O(1/σ2log(k/σ))同理,根据一致收敛理论,给定容错率σ\sigmaσ与样本数mmm,可以计算出偏差γ=(1/2m⋅log(2k/σ))1/2\gamma = (1/2m·log(2k/\sigma))^{1/2}γ=(1/2mlog(2k/σ))1/2

1.3 偏差方差权衡
  在一致收敛的条件下,有∀h∈H,∣ϵ(h)−ϵ^(h)∣≤γ\forall h \in H, |\epsilon(h) - \hat\epsilon(h)| \le \gammahH,ϵ(h)ϵ^(h)γ。根据ERM理论,令h^=argminh∈H ϵ^(h)\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)h^=argminhH ϵ^(h)并定义取得最小一般误差的映射h^∗=argminh∈H ϵ(h)\hat{h}^* = argmin_{h \in H}\ \epsilon(h)h^=argminhH ϵ(h)根据一致收敛理论,有ϵ(h^)≤ϵ^(h^)+γ≤ϵ^(h^∗)+γ≤ϵ(h^∗)+2γ\begin{aligned} \epsilon(\hat{h}) &\le \hat\epsilon(\hat{h}) + \gamma \\&\le \hat\epsilon(\hat{h}^*) + \gamma \\&\le \epsilon(\hat{h}^*) + 2\gamma \end{aligned}ϵ(h^)ϵ^(h^)+γϵ^(h^)+γϵ(h^)+2γ因此在HHH为有限集的情况下,给定容错率σ\sigmaσ与样本数mmm,有ϵ(h^)≤minh∈H ϵ(h)+2(1/2m⋅log(2k/σ))1/2 \epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + 2(1/2m·log(2k/\sigma))^{1/2}ϵ(h^)minhH ϵ(h)+2(1/2mlog(2k/σ))1/2即训练误差最小的映射与一般误差最小的映射的误差在一定范围内。
  对于不同的拟合,若增大H内映射的数量,那么ϵ\epsilonϵ项可能会减小,但γ\gammaγ项的kkk会增大,这种现象称为偏差方差权衡,即使用更多的假设,可能找到更好的函数拟合模型,但不能精确拟合模型的风险也随之提高。
  概括来讲,在模型过于简单时,训练误差与一般误差的偏差较小,但误差过高,称为欠拟合;在模型过于复杂时,训练误差降低,但训练误差与一般误差的偏差过高,称为过拟合。


二、VC维度
2.1 分散与VC维
  给定一个由d个点构成的集合S={x(d)}S = \{x^{(d)}\}S={x(d)},如果一个假设类HHH能够实现集合SSS的任意一种标记方式,称为HHH能够分散SSS。类HHH能够分散的最大集合SSS的大小称为HHH的VC【Vapnik-Chervonenkis】维度,记VC(H)VC(H)VC(H)
  考虑二维空间的线性分类器,存在某种分布3个样本点能被HHH分散,但任何分布的4个样本点都不能被HHH分散,即其VC维为3。而nnn维空间的VC维为n+1n + 1n+1

2.2 无限维经验风险最小化理论
  对于包含k个假设的集合H={hk}H = \{h_k\}H={hk},ERM理论认为,在1−σ1 - \sigma1σ的概率下,一致收敛所需要的样本数量为m=O(1/σ2⋅log(k/σ))m = O(1/\sigma^2·log(k/\sigma))m=O(1/σ2log(k/σ))一般来讲,一个线性决策边界组成的hkh_khk,其参数以ddd个实数作为参数,考虑nnn维逻辑回归问题,则hkh_khkn+1n + 1n+1个实数作为参数。那么在计算机科学中,由于二进制浮点数的限制,所有k个假设的ddd的组合情况是有限的,即k=2(dc)k = 2^{(dc)}k=2(dc)其中ccc是数据位数,故m≥1/2σ2⋅log(2k/σ)=O(d⋅log(1/σ)/σ2)\begin{aligned} m &\ge 1/2\sigma^2·log(2k / \sigma) \\ &= O(d·log(1/\sigma)/\sigma^2) \end{aligned}m1/2σ2log(2k/σ)=O(dlog(1/σ)/σ2)即所需的样本必须是上述式的数量级,其表明了所需的样本大致与假设类的参数数目呈线性关系。而不考虑计算机科学,有一种更加正确的表述。
  Vapnik与Chervonenkis证明了,给定集合HHH,令VC(H)=dVC(H) = dVC(H)=d,那么在1−σ1 - \sigma1σ的概率下,有∣ϵ(h)−ϵ^(h)∣≤O((d/m⋅log(m/d)+1/m⋅log(1/σ))1/2)|\epsilon(h) - \hat\epsilon(h)| \le O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2})ϵ(h)ϵ^(h)O((d/mlog(m/d)+1/mlog(1/σ))1/2)即一致收敛,以及在1−σ1 - \sigma1σ的概率下,有ϵ(h^)≤minh∈H ϵ(h)+O((d/m⋅log(m/d)+1/m⋅log(1/σ))1/2)\epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2})ϵ(h^)minhH ϵ(h)+O((d/mlog(m/d)+1/mlog(1/σ))1/2)在满足一致收敛的条件下,有m=O(d)m = O(d)m=O(d)即样本量需要与HHH的VC维呈线性关系。

2.3 SVM的VC维
  事实证明,即使使用核函数将样本映射到高维空间,具有较大间隔的线性分类器的假设类依然有比较低的VC维。考虑一定数量的样本点,其假设类包含了以较大的间隔分隔点集合的边界。若仅考虑半径为RRR范围内的样本点,以及间隔至少为γ\gammaγ的线性分类器构成的假设类HHH,那么VC(H)≤⌈R2/4γ2⌉+1VC(H)\le \lceil R^2/4\gamma^2 \rceil + 1VC(H)R2/4γ2+1即仅包含较大间隔线性分类器的假设类的VC维是有上界的。其表明VC维的上界不依赖于样本的维度。
  ERM的损失函数可以认为是1{hθ(x)≠y}1\{h_\bm\theta(\bm{x}) \ne y\}1{hθ(x)=y},目的是选取θ\bm\thetaθ使得其最小,是一个非凸的阶跃函数。而逻辑回归,SVM都可以看作该问题的一种凸性近似。


三、模型选择算法
  根据ERM,偏差和方差之间存在权衡,即不应该选择过于简单或者过于复杂的模型。模型选择算法提供了一类方法,可以自动的在偏差与方差之间权衡。

3.1 保留交叉验证
  保留交叉验证是一种标准的模型选取方法,将给定的训练集随机划分为两个子集,一个称为训练子集,另一个称为保留交叉验证子集。使用训练子集训练模型,并使用保留交叉验证子集进行测试,选择最小测试误差的模型作为结果。
  一般的,训练子集占有训练集的70%,保留交叉验证子集占有30%,之后可以使用100%的数据对选出的模型进行重新训练。

3.2 k重交叉验证
  有时,数据的获取是困难的,使用30%的数据来选择模型的代价过大。因此,为了提高数据的使用率,使用保留交叉验证的一种变种,称为k重交叉验证。
  考虑训练集,将其划分为k部分,通常情况下,k的取值为5或10。重复的使用其中k-1个部分进行训练,并使用剩余的部分进行测试,最后将k个结果求取平均,选择最小测试误差的模型作为结果,并使用100%的数据对选出的模型进行重新训练。其明显的缺点为需要大量的计算。
  对于m个样本时,k取m-1的情况,称为留1交叉验证,适用于样本较少的情况。


四、特征选择
  对于很多机器学习问题,需要面对非常高维的特征空间,输入特征向量x\bm{x}x的维数可能非常高,可能会引起过拟合问题。减少特征数量,也许可以减少学习算法的方差,降低过拟合的风险。

4.1 封装特征选择算法
  前向搜索算法是一种特征选择的有效方法。其算法流程为
  (1)初始化特征子集FFF∅∅
  (2)对于第i个特征xix_ixi,分别尝试加入到FFF中,对模型进行交叉验证。
  (3)F=F∪xiF = F \cup x_iF=Fxi,其中xix_ixi是效果最好的特征。并迭代(2)-(3),知道到达结束条件,如模型指标,特征数量。
  同理的后向搜索算法是也一种特征选择的有效方法。
  上述算法像一个包装一样封装在学习算法外面,即进行特征选择时,需要重复的使用学习算法训练模型,并根据模型的结果选择特征子集,其称为封装特征选择算法。其主要的缺点是需要大量的计算。

4.2 过滤特征选择算法
  该算法的一般误差不会太低,从而导致假设的工作效果不是很好,但其的计算量较小。其基本思想为,对于每个特征,尝试计算一些衡量标准,衡量其对结果的影响,并选出最具有代表性的特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值