目录
1. 评估假设
2. 贝叶斯法则
3. 贝叶斯分类器
4. 实例分析
1 评估假设
对假设的精度进行经验评估是机器学习中的基本问题。
1.1 估计假设精度
当数据十分充足时,假设精度的估计相对容易,但如果给定的数据集非常有限是,那么在学习学习一个概念并估计其将来的精度,会存在两个困难:
(a) 估计的偏差
(b) 估计的方差
本文使用框架:
在假设空间上H上, 学习一个目标概念(目标函数)f。目标函数f的训练样例有施教者提供给学习器:每一个实例按照概率分布P来独立的抽取,然后它连同正确的目标值f(x) 一同提供给学习器。
在此框架上,我们感兴趣的问题:
(a) 给定假设h和包含若干按P分布随机抽取的样例数据集,如何针对按同样分布抽取的实例,得到对h的精度的最好估计。
(b)这一精度估计的可能的误差是多少?
为了解决上面的问题,需要确切的区分出两种精度(错误率):
样本错误率: 对于从所有可能实例的空间X中抽取的样本S,某假设关于S的样本错误率为:该假设错误分类的实例在S中所占的比例。errorsh
真实错误率: 对于按P分布随机抽取的实例,该假设对它错误分类的概率。errorPh
我们通常想知道真实错误率,因为这是在分类未来样例时可以预料到的错误。然而, 我们所能测量的是样本错误率。所以,我们要弄明白:errorsh在何种程度上提供了对errorPh的估计?
1.2 采样理论基础
这里介绍几个统计雪中常用的几个定义概念
(a) 随机变量 : 随即实验的输出
(b) 某随机变量的概率分布:指定了取值为任何以可能只yi的可能性Pr(Y=yi)
(c) 随机变量Y的期望值(均值)E[Y]
(d) 随机变量的方差: Var(Y)=E[(Y−E[y])2]
(e) Y的标准差
(f) 二项分布:给出了当单个硬币投掷出正面概率为p时,在n个独立硬币投掷样本中观察到r次正面的概率 :
若随机变量X遵循二项分布:
期望: E[x]=np
方差:Var(X)=np(1−p)
对于足够大的n值,二项分布很接近于哟同样均值和方差的正态分布。建议在np(1−p)>=5时来近似。
(h)正态分布
(i) 中心极限定理:说明独立同分布的随机变量的总和遵循正态分布
(j) 估计量: 一个随机变量Y,被用来估计一个基准总体的某一参数p
(k)Y的估计偏差: 作为p的估计量:E[Y]−p 无偏估计量: 估计偏差为0
(l) N%置信区间: 用作估计参数p,该区间包含p的概率为N%
==========================================
i 二项分布的具体形式依赖于样本大小 n 以及概率 p
1) 有一基本实验(如投掷硬币),其输出可以被描述为随机变量Y。随机变量Y有两种取值(1、0)
2) 在实验的任意一次尝试中,Y=1的概率为常数p。各实验独立。一般p预先未知,面临的问题就是如何去估计它。
3)基本实验的n次独立尝试,生成一个独立同分布的随机变量序列:Y1,Y2,...Yn , 令R为n次实验中出现Y=1的次数: R=∑ni=1Yi
4) 随即变量R取特定值r的概率(观察到r次正面)有二项分布给出:
Pr(P=r)=n!r!(n−r)!pr(1−p)n−r
ii 估计量
用二项分布的术语来定义errorsh和errorPh:
errorsh=rn
errorPh=p
其中,n为样本S中的实例数,r是S中被h误分类的实例数。p为从P中抽取一实例被误分类的概率。
统计学中,将 error_{s}{h} 称为真实错误率error_{P}{h}的一个估计量,通常估计量用来估计某基本总体的某一参数的随机变量。估计偏差作为估计量的期望值同真实参数值之间的差异。
iii 正态分布
一个正态分布(高斯分布)是一个钟形分布,它定义为下面的密度函数:
p(x)=12πσ2√e−12(x−μσ)2
如果随机变量X遵循正态分布:
X落入到(a,b)的概率为: ∫bap(x)dx
X期望值:E[X]=μ
X方差:Var(X)=σ2
中心极限定理:考虑独立同分布的随机变量Y1,Y2,,,,,Yn 他们服从一任意概率分布,均值为μ 有限方差为σ2, 定义样本均值Yn¯=∑ni=1Yi.则当n→inf :
Yn¯−μσn√ 服从均值为0 方差为1的正态分布。
中心极限定理说明了在n趋近于无穷时,Yn¯所服从的分布为正态分布,而不用去管Yi本身服从什么样的分布。