机器学习---可能近似正确(PAC)、出错界限框架

1. 计算学习理论概述

从理论上刻画了若干类型的机器学习问题中的困难和若干类型的机器学习算法的能力

这个理论要回答的问题是:

在什么样的条件下成功的学习是可能的?

在什么条件下某个特定的学习算法可保证成功运行?

这里考虑两种框架:

可能近似正确(PAC):确定了若干假设类别,判断它们能否从多项式数量的训练样例中学习得

到,定义了一个对假设空间复杂度的自然度量,由它可以界定归纳学习所需的训练样例数目。

出错界限框架:考查了一个学习器在确定正确假设前可能产生的训练错误数量。

机器学习理论的一些问题:

是否可能独立于学习算法确定学习问题中固有的难度?能否知道为保证成功的学习有多少训练样例

是必要的或充足的?如果学习器被允许向施教者提出查询,而不是观察训练集的随机样本,会对所

需样例数目有怎样的影响?能否刻画出学习器在学到目标函数前会有多少次出错?能否刻画出一类

学习问题中固有的计算复杂度?

对所有这些问题的一般回答还未知,但不完整的学习计算理论已经开始出现。本文阐述了该理论中

的一些关键结论,并提供了在特定问题下一些问题的答案。主要讨论在只给定目标函数的训练样例

和候选假设空间的条件下,对该未知目标函数的归纳学习问题。主要要解决的问题是:需要多少训

练样例才足以成功地学习到目标函数以及学习器在达到目标前会出多少次错。

如果明确了学习问题的如下属性,那么有可能给出前面问题的定量的上下界:学习器所考虑的假设

空间的大小和复杂度;目标概念须近似到怎样的精度;学习器输出成功的假设的可能性;训练样例

提供给学习器的方式。

本文不会着重于单独的学习算法,而是在较宽广的学习算法类别中考虑问题:样本复杂度:学习器

要收敛到成功假设,需要多少训练样例?计算复杂度:学习器要收敛到成功假设,需要多大的计算

量?出错界限:在成功收敛到一个假设前,学习器对训练样例的错误分类有多少次?

为了解决这些问题需要许多特殊的条件设定,比如:“成功”的学习器的设定;学习器是否输出等于

目标概念的假设;只要求输出的假设与目标概念在多数时间内意见一致;学习器通常输出这样的假

设。学习器如何获得训练样例:由一个施教者给出;由学习器自己实验获得;按照某过程随机生成

本文会介绍可能近似正确(PAC)学习框架。在PAC框架下,分析几种学习算法的样本复杂度和计

算复杂度;介绍了假设空间复杂度的一个重要度量标准,称为VC维,并且将PAC分析扩展到假设

空间无限的情况;介绍出错界限模型,并提供了前面章节中几个学习算法出错数量的界限,最后介

绍了加权多数算法。

2. 可能近似正确学习模型(PAC

 可能近似正确学习模型(PAC):指定PAC学习模型适用的问题;在此模型下,学习不同类别的目

标函数需要多少训练样例和多大的计算量;本文的讨论将限制在学习布尔值概念,且训练数据是无

噪声的(许多结论可扩展到更一般的情形)。 

X表示所有实例的集合,C代表学习器要学习的目标概念集合,C中每个目标概念c,对应于X的某

个子集或一个等效的布尔函数c: X->{0,1};假定实例按照某概率分布DX中随机产生;学习器L

学习目标概念时考虑可能假设的集合H。在观察了一系列关于目标概念c的训练样例后,L必须从H

中输出某假设h,它是对c的估计;我们通过h在从X中抽取的新实例上的性能来评估L是否成功。新

实例与训练数据具有相同的概率分布;我们要求L足够一般,以至可以从C中学到任何目标概念而

不管训练样例的分布如何,因此,我们会对C中所有可能的目标概念和所有可能的实例分布D进行

最差情况的分析。

2.1 假设的错误率

为了描述学习器输出的假设h对真实目标概念的逼近程度,首先要定义假设h对应于目标概念c和实

例分布D的真实错误率;h的真实错误率是应用h到将来按分布D抽取的实例时的期望的错误率;定

义:假设h的关于目标概念c和分布D的真实错误率为h误分类根据D随机抽取的实例的概率

真实错误率紧密地依赖于未知的概率分布D:如果D是一个均匀的概率分布,假设的错误率为hc

不一致的空间在全部实例空间中的比例;如果D恰好把hc不一致区间中的实例赋予了很高的概

率,相同的hc将造成更高的错误率。

h关于c的错误率不能直接由学习器观察到,L只能观察到在训练样例上h的性能;训练错误率:指

代训练样例中被h误分类的样例所占的比例;问题:h的观察到的训练错误率对真实错误率产生不正

确估计的可能性多大?

2.2 PAC可学习性

我们的目标是刻画出这样的目标概念,它们能够从合理数量的随机抽取训练样例中通过合理的计算

量可靠地学习。对可学习性的表述:一种可能的选择:为了学习到使errorD(h)=0的假设h,所需的

训练样例数;这样的选择不可行:首先要求对X中每个可能的实例都提供训练样例;其次要求训练

样例无误导性;可能近似学习:首先只要求学习器输出错误率限定在某常数ε范围内的假设,其次

要求对所有的随机抽取样例序列的失败的概率限定在某常数δ范围内;只要求学习器可能学习到一

个近似正确的假设。

PAC可学习性的定义:考虑定义在长度为n的实例集合X上的一概念类别C,学习器L使用假设空间

H。当对所有c∈CX上的分布D,εδ满足0<εδ<1/2,学习器L将以至少1-δ输出一假设h∈H

使errorD(h)<=ε,这时称C是使用HLPAC学习的,所使用的时间为1/ε,1/δ,n以及size(c)的多

项式函数。上面定义要求学习器L满足两个条件:L必须以任意高的概率(1-δ)输出一个错误率任

意低(ε)的假设;学习过程必须是高效的,其时间最多以多项式方式增长。上面定义的说明:1/ε

和1/δ表示了对输出假设要求的强度,nsize(c)表示了实例空间X和概念类别C中固有的复杂度;n

X中实例的长度,size(c)为概念c的编码长度。

在实践中,通常更关心所需的训练样例数,如果L<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值