[机器学习]计算学习理论

本文档记录了《机器学习》第 12 章计算学习理论相关内容

基本概念

计算学习理论的目的

分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

泛化误差与经验误差

  • 泛化误差:输入输出映射 h() 在整个样本空间 上所表现出的误差。

    E(h;)=Px(h(x)y)

    任意两个映射之间的不合:d(h1,h2)=Px(h1(x)h2(x))

  • 经验误差:输入输出映射 h() 在训练数据集 D 上所表现出的误差。

    Ê (h;D)=PxD(h(x)y)

    经验误差为 0 则表示假设与样本空间一致

由于 D 的同分布采样,因此 h 的泛化误差等于经验误差的期望。

常用不等式(P268)

  • Jesen 不等式
  • Hoeffding 不等式
  • McDiarmid 不等式

概率近似正确(Probably Approximately Correct)学习

基本符号

  • 复杂度:size()
    • 概念:c,从样本空间到标记空间的映射
    • 目标概念:(x,y),c(x)=y
    • 概念类:,包含目标概念的集合
    • 学习算法:?
    • 假设:h,从样本空间到标记空间的映射
    • 假设空间:,给定学习算法包含的所有假设的集合,依赖于学习算法存在
    • 置信度:δ(0,1)
    • 误差参数:ϵ(0,1),经验误差的上界,预先设定的学习模型所应满足的误差要求

    假设空间的可分性

    若目标概念 c,则 中存在假设使得所有样本输入的输出与真实标记一致,则称该问题对学习算法 ? 是可分的(一致的)。

    若不存在目标概念 c,则称该问题对学习算法 ? 是不可分的(不一致的)。

    PAC 辨识

    0<ϵ,δ<1,c,,若存在学习算法 ? 能以至少 1δ 的概率学得目标概念 c 的近似 h,即:

    P(E(h)ϵ)1δ

    则称该学习算法能从假设空间中辨识概念类

    PAC 可学习

    m 是从样本分布空间 中独立同分布采样得到的样本 x 的数目,若存在学习算法 ? 和多项式函数 poly()m,mpoly(1/ϵ,1/δ,size(x),size(c)),学习算法 ? 能从假设空间 中辨识概念类 ,则称概念类 对假设空间 而言是 PAC 可学习的。

    = 时,称恰 PAC 可学习

    PAC 学习算法

    若学习算法 ? 使概念类 是 PAC 可学习的,且运行时间是多项式函数 poly(1/ϵ,1/δ,size(x),size(c)),则称概念类 高效 PAC 可学习的? 为概念类 的 PAC 学习算法。

    样本复杂度

    满足 PAC 学习算法 ? 所需的最小样本数 mpoly(1/ϵ,1/δ,size(x),size(c)),称为 ? 的样本复杂度。

    假设空间复杂度

    有限假设空间

    || 有限时的假设空间。

    可分情形

    在可分有限假设空间中,一定能从假设空间找到一个假设 h 满足概念要求,即训练集上表现完美,所需的样本数约束条件为:

    m1ϵ(ln||+ln1δ)

    在该约束条件下,假设 h 的泛化误差随着样本数 m 的增加收敛到 0,收敛速率为 O(1m),即给定样本数 m 时,学习器的泛化误差下界为 1m(ln||+ln1δ)

    不可分情形

    • 不可知 PAC 可学习:如果学习算法 ? 能够学出满足如下约束条件的假设 h,则称假设空间 是不可知 PAC 学习的。

      P(E(h)minhE(h)ϵ)1δ
    • 高效不可知 PAC 可学习:在不可知 PAC 可学习中,如果学习算法 ? 的运行时间也是多项式函数 poly(1/ϵ,1/δ,size(x),size(c)),则称假设空间 是高效不可知 PAC 学习的;学习算法 ? 称为 的高效不可知 PAC 学习算法。

    无限假设空间

    VC 维

    经验风险最小化(Empirical Risk Minimization)原则

    h 为学习算法 ? 的输出假设,满足

    Ê (h)=minhÊ (h)

    则称 ? 满足经验风险最小化原则。

    增长函数

    设假设 h 对训练集 D 中样本的标记结果为:

    h|D={(h(x1),(h(x2),...,(h(xm))}

    对所有的 m,假设空间的增长函数为:

    Π=max{x1,x2,...xm}|{(h(x1),(h(x2),...,(h(xm))|h}|

    表示假设空间对 m 个样本所能赋予标记的最大可能数,该值越大则假设空间的表示能力越强。

    对分和打散

    尽管假设空间的大小可能是无穷的,但是对于训练集 D 的可能标记结果数是有限的。

    • 对分:在二分类问题中,假设空间对训练集的每种标记结果称为对 D 的一种对分
    • 打散:如果假设空间能实现样本集上所有对分,即假设空间的增长函数 Π(m)=2m,则称样本集 D 能被假设空间 打散
    VC 维

    假设空间 的 VC 维是能被 打散的最大样本集的大小:

    VC()=max{m:Π(m)=2m}=d
    • 只要存在大小为 d 的样本集能被假设空间打散即可。
    • 不存在大小为 d+1 的样本集能被假设空间打散。
    • 分布无关(数据独立)性:VC 维的泛化误差界只与样本数目有关,并且收敛速率为 O(1m),与数据分布 无关。
    • 增长函数上界:
      • 对任意 mΠ(m)di=0(mi)
      • mdΠ(m)(emd)d
    • 任何 VC 维有限的假设空间都是(不可知) PAC 学习的。

    Rademacher 复杂度???

    在一定程度上考虑了数据的分布。

    稳定性

    考察算法在输⼊(训练集)发⽣变化时,输出是否发⽣较⼤的变化。

    训练集的两种变化

    • 移除:Di
    • 替换:Di

    损失函数

    损失函数刻画了学习算法在训练集上预测标记与真实标记的差别:

    l(?D(x),y):×+

    简记为 l(?D,z=(x,y))

    • 泛化损失:l(?,D)=?x,z=x,y[l(?D,z)]
    • 经验损失:l̂ (?,D)=1mmi=1l(?D,zi)
    • 留一损失:lloo(?,D)=1mmi=1l(?Di,zi)

    均匀稳定性

    • β-均匀稳定性:学习算法满足对所有的 i|l(?D,z)l(?Di,z)|β
      • 替换:|l(?D,z)l(?Di,z)|2β
    • 对于损失函数,若学习算法的输出满足经验损失最小化,则称算法满足经验风险最小化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值