通俗易懂教你入门学习理论(统计学习)一

本文解析《OnTheMathematicalFoundationsofLearning》,探讨学习理论核心概念,包括误差、概率收敛、假设空间及误差估计,适合数学与深度学习研究者。

一、导读

本文是对《On The Mathematical Foundations of Learning》文章的浅析,请结合该论文一起“食用”。该论文是Steve Smale大神对于学习理论非常系统的阐述,也是学习理论发展的一个重要基石。如果你是学数学的,那你肯定看过这篇文章;如果你是学计算机深度学习的,那我建议了解一下学习理论,这对发论文很有帮助。

需要注明的是我作为一个程序员对这篇文章的专业数学知识不太了解,所以也不会去推公式,只是在概念和思路上进行阐述,如果有说的不对的地方也请数学专业的同学指出。如果你也跟我一样具有一定的深度学习知识并且是一个专注于代码训练的程序员,请继续往下看吧!温馨提示:希望大家可以将程序员的思维转换成数学的思维。

二、“学习”是什么?

学习的最终目的是对未知新数据进行预测和分析。

拿监督学习举例:

对于分类任务,计算机中的神经网络是模型 f f f,模型的输入 x x x和真实标签 y y y我们当作是训练集。我们的学习任务就是使 f ( x ) f(x) f(x)的值与真实标签 y y y的值越小越好,也就是我们常说的Loss函数越小越好。这样我们学习到的 f f f模型就越准确,从而其对于未知的数据 x x x的预测效果就越好。

以上是计算机的分析思路,现在对数学中的学习理论过程进行阐述。

假设存在一个映射 f ( x ) f(x) f(x) ,该映射满足对所有 x x x 都有 f ( x ) = y f(x)=y f(x)=y. 我们的目的是学习到最接近 f ( x ) f(x) f(x)的映射 f ′ ( x ) f'\left(x\right) f(x). 首先明确这里是对所有的 x x x,而我们实际情况是只能得到一部分(甚至是非常小的一部分)采样数据 x x x y y y,所以这样学习到的映射与真实映射 f ( x ) f(x) f(x) 还是有很大差别。当然这也是满足学习逻辑的,即对未知的 x x x 进行结果 y y y的预测。

针对上述过程,我们可能会提出以下问题:
(1)我们使用什么方法来度量学习到的 f ′ ( x ) f'\left(x\right) f(x) y y y的距离?
(2)如何选择模型 f f f,即模型应该是一个什么样的形式或者在哪个范围内寻找?
(3)我们能否只通过采样得到的数据学习到模型 f f f?或者说我们通过采样数据学习到的模型 f ′ ( x ) f'\left(x\right) f(x)是否可以逼近真实 f ( x ) f(x) f(x)

看了下面的内容你有解答这些问题的思路。

三、误差

我们首先得明白一些概念:

X X X是一个紧集(非紧集也可以,这篇文章的假设是紧集)表示输入; Y = R k Y=\mathbb{R}^k Y=Rk 表示真实输出标签,为了方便令k=1.

这里我们使用最小二乘法(least squares error)来度量训练模型输出 f ( x ) f(x) f(x) y y y 的误差(距离)。

ρ \rho ρ表示在 Z = X × Y Z=X\times Y Z=X×Y上的真实的概率测度。

那么误差可以表示为:

1(式子1)
这里的积分可以理解为在 Z Z Z 上的所有误差的期望(或均值),这里的 f f f表示一个模型。

那么我们的目的就是得到可以最小化误差 ε ( f ) \varepsilon(f) ε(f) f f f。这里的 ε ( f ) \varepsilon(f) ε(f)表示期望风险(误差)

由于这里的期望风险是在 Z Z Z上进行计算的,我们希望将其分解为 X X X Y Y Y的式子,则期望风险可以分解为:
2(式子2)
其中 f ρ ( x ) f_\rho(x) fρ(x)称为 ρ \rho ρ的回归函数:
3(式子3)
该式子(3)可以这样理解:对输入数据 x x x 来说,所有可能的 y y y乘以其真实条件概率后的和,也就是期望。所以该 f ρ ( x ) f_\rho(x) fρ(x)可以代表使得 ε ( f ) \varepsilon(f) ε(f)最小的函数,即满足我们目标的最优模型,是一个内在最优解

那么对式子(2)的证明为:
4(式子4)
但是在实际实验中,我们不可能得到积分的(或者说期望)的结果,我们只有通过采样部分样本来计算误差,所以我们得到:
5(式子5)
ε z ( f ) \varepsilon_z(f) εz(f) 表示经验风险(误差)。其中m为样本数。

四、 概率收敛

我们在实际实验中只能得到经验风险,没办法得到期望风险,那么我们的经验风险到底能不能代表期望风险,这就要求我们证明“经验”是可以收敛到“期望”(非常重要,也是该数学理论保证了我们机器学习是有效且正确的)。Chebyshev不等式、Bernstein不等式和Hoeffding不等式(保证数据是有界的且独立同分布)都可以证明可以收敛,这几个不等式可以看做是大数定理的量化。

6(式子6)
这里 L z ( f ) L_z(f) Lz(f)表示期望风险经验风险之差,用来度量他们两个的差距。

Smale这篇文章提出的第一个重要结果是定理A
定理A
定理A基于上述提到的不等式得到期望风险经验风险有界的定理。该式子也说明,当采样数量越大,收敛速度也成指数倍增长。注意这里的 f f f是在所有可能的假设空间中的一个映射方法。(如果你是搞这个方向的同学请务必记住和会推这个式子,下面的定理B和定理C也是)。

五、假设空间

假设空间简单的来讲就是 f f f所在的空间,即这个模型的架构和参数是什么,不是输入数据和输出数据所在的空间。为什么要引入假设空间这个概念?因为在整个可能空间中寻找使得误差最小的 f f f非常困难。我们通常假定该 f f f是属于齐次多项式,或者属于核空间,或者属于卷积神经网络空间等。不同的假设空间的学习理论证明和推理都会有所不同,在这篇文章之后的很多工作会对一种假设空间进行讨论,这是发论文的重要方向之一。

既然固定了模型可能存在的假设空间,那么在当前假设空间内也存在期望风险最优解和经验风险最优解。所以该假设空间内的最优解与全局最优解还是有一定的区别的。

接下来介绍几个容易混淆的表示:

f H f_H fH是在假设空间 H H H中使得期望风险最小(式子7)的方法,
7(式子7)
因为该期望风险可以分解为(式子4),所以 f H f_H fH也可以算作下式(式子8)的最优解:

8(式子8)

f H , z = f z f_{H,z}=f_z fH,z=fz是在假设空间 H H H中使得经验风险最小(式子9)的方法
9(式子9)
10(式子10)
ε H ( f ) \varepsilon_H(f) εH(f)表示在 H H H空间中的一个 f f f期望风险与该空间中最小期望风险的差值。(式子10)其中 f ∈ H f\in H fH.
11(式子11)
ε ( f z ) \varepsilon(f_z) ε(fz)表示 f z f_z fz的期望风险。(式子11)的第二个等号前面的式子就是(式子10)的变形。
12(式子12)
(式子12)中的第一项称之为样本误差,注意样本误差不是经验误差,因为 ε H ( f z ) \varepsilon_H(f_z) εH(fz)表示 f z f_z fz期望误差减去 f H f_H fH期望误差;第二项跟采样样本无关,只与假设空间有关,称之为逼近误差。当固定假设空间 H H H,对于样本误差来说,样本数量越多, f z f_z fz越接近 f H f_H fH(由理论C得),则样本误差越小;当固定样本数量,扩大假设空间 H H H,逼近误差会减小,而样本误差会增大。该特征有时被称为偏差方差折中(bias-variance trade-off)。本人后续文章可能会详细介绍这个重要内容。

六、对误差的一致估计

因为我们引入了假设空间 H H H,那么自然想到对于整个假设空间的所有 f f f是否可以证明“经验”收敛与“期望”。所以本文提出的另一个重要定理——定理B,是在定理A的基础上将一个 f f f扩展到整个 H H H族,定理B是用来证明在最坏的情况下 f H , z f_{H,z} fH,z收敛于 f ρ ( x ) f_\rho(x) fρ(x)。我们发现在 H H H中的 f f f其实是有无穷多的,那么要去刻画这个无穷,就需要将无穷化为有穷。其中一个方法就是覆盖数,覆盖数是学习理论中的一个重要工具。定义为:
定义2来自Yunlong Feng教授文章(定义2来自Yunlong Feng教授文章)
覆盖数可形象表示为:
来自林绍波教授文章(图来自林绍波教授文章)
每一个圈内的函数可以当作是一个类,该类中的函数差别都非常小,那么可以用这些圈覆盖住整个假设空间,这样就可以将无穷转化为有穷。

定理B

七、样本误差估计

我们希望 f z f_z fz逼近 f H f_H fH多近才好?或者说样本误差 ε H ( f z ) \varepsilon_H(f_z) εH(fz)多小才好?之前得到的不等式都是用于“经验”到“期望”的逼近,而我们现在分析样本误差,是一个期望到期望的逼近过程,Lemma2证明了:
13(式子13)
即样本误差有界。当在假设空间 H H H中时,将Lemma2与定理B结合可以得到定理C
定理C

八、总结

这个论文中的后续还有非常多内容,比如覆盖数估计、凸假设空间、近似误差、偏差方差问题、再生核希尔伯特空间等等。没办法全部写完,而且都是公式定理推理,非常硬核。我也是一个刚接触学习理论的小白,因为听了陈洪老师的课才分享一下自己的学习心得。所以我就先写到这里,希望对大家学习统计学习有所帮助。

欢迎关注我的知乎账号:阿财是小白知乎账号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值