Coursera - 机器学习基石 - 课程笔记 - Week 4

学习的可行性与PAC理论
探讨了在未知真实模式的情况下,学习的挑战与可能性。通过Hoffding不等式和PAC理论,解释了如何在有限样本和多个假设中找到最接近真实目标的学习模型。

Feasibility of Learning

Learning is Impossible

  • 由于真实的模式fff是未知的,我们很难最终确定ggg是否真的很拟合,甚至可能永远得不到“正确的”答案(控制因素太多)
  • 学习的目的是预测既有数据集以外的内容,如果任何一种可能的假设都能够你和数据集以外的结果,那么相当于“没有学到东西”

Probability to the Rescue

  • 对于推断在数据集之外的未知目标fff,是非常困难的
  • 一种可行思路:样本抽取估计(罐子里拿弹珠模型)
  • 对于实际比率μ\muμ和样本结果比例ν\nuν
    • 在取足够大的样本量NNN时,二者相差很小:P[∣ν−μ∣>ϵ]≤2exp⁡(−2ϵ2N)\mathbb{P} [|\nu - \mu| \gt \epsilon] \le 2 \exp(-2\epsilon^2N)P[νμ>ϵ]2exp(2ϵ2N)(Hoffding不等式)
    • 二者可能(大概率)近似(存在一个ε)相等(probably approximately correct, PAC)
    • 对任意的NNNϵ\epsilonϵ是有效的
    • 因为右侧结果无μ\muμ,因此不需要知道真实比例(以及概率)
    • 如果样本量足够大,我们可以大概率认为可以由ν\nuν推论到μ\muμ

Connection to Learning

  • 类比于从罐子里面拿弹珠
  • 对于一个数据集合(对样本空间的抽样)D\mathcal DD,如果样本空间够大,且每一个样本都是独立同分布的,那么我们可以通过在样本集合上的hhh之表现[h(xn)≠yn][h(\bold x_n) \ne y_n][h(xn)=yn]估计hhh在整个样本空间的表现,即与fff的差距[h(x)≠f(x)][h(\bold x) \ne f(\bold x)][h(x)=f(x)]
  • 估计假设的效果,对固定的假设hhh,在数据足够大时,Ein−sample(h)≈Eout−of−sample(h)E_{in-sample}(h) \approx E_{out-of-sample}(h)Einsample(h)Eoutofsample(h)

Connection to Learning

  • 根据Hoffding不等式,坏样本,当前假设下EinE_{in}EinEoutE_{out}Eout相差很远,且面临多个选择时,会恶化这种情形
  • 坏的数据样本集
    • 对于选择ggg会产生不好的影响
    • 可能存在EinE_{in}EinEoutE_{out}Eout相差甚远的情形
  • 根据Hoffding不等式,如果有MMM个假设可供选择,那么从样本空间中遇到坏数据的概率上界为2Mexp⁡(−2ϵ2N)2M\exp(-2\epsilon^2N)2Mexp(2ϵ2N)
    • 只要选择有限,对任意的MMMNNNϵ\epsilonϵ都有效
    • 我们控制MMM有限,NNN足够大,可以保证PAC(可以选择一个EinE_{in}Ein较小的假设作为最终结果ggg
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值