贝叶斯学习 -- matlab、python代码分析(1)

本文探讨了在机器学习中评估假设精度的重要性,并通过贝叶斯法则详细介绍了估计假设精度的方法。文中还讨论了估计偏差和方差等问题,并利用二项分布和正态分布进行了实例分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录
1. 评估假设
2. 贝叶斯法则
3. 贝叶斯分类器
4. 实例分析

1 评估假设
对假设的精度进行经验评估是机器学习中的基本问题。

1.1 估计假设精度

当数据十分充足时,假设精度的估计相对容易,但如果给定的数据集非常有限是,那么在学习学习一个概念并估计其将来的精度,会存在两个困难:
(a) 估计的偏差
(b) 估计的方差

本文使用框架:
在假设空间上H上, 学习一个目标概念(目标函数)f。目标函数f的训练样例有施教者提供给学习器:每一个实例按照概率分布P来独立的抽取,然后它连同正确的目标值f(x) 一同提供给学习器。
在此框架上,我们感兴趣的问题:
(a) 给定假设h和包含若干按P分布随机抽取的样例数据集,如何针对按同样分布抽取的实例,得到对h的精度的最好估计。
(b)这一精度估计的可能的误差是多少?
为了解决上面的问题,需要确切的区分出两种精度(错误率):
样本错误率: 对于从所有可能实例的空间X中抽取的样本S,某假设关于S的样本错误率为:该假设错误分类的实例在S中所占的比例。errorsh
真实错误率: 对于按P分布随机抽取的实例,该假设对它错误分类的概率。errorPh
我们通常想知道真实错误率,因为这是在分类未来样例时可以预料到的错误。然而, 我们所能测量的是样本错误率。所以,我们要弄明白:errorsh在何种程度上提供了对errorPh的估计?

1.2 采样理论基础
这里介绍几个统计雪中常用的几个定义概念
(a) 随机变量 : 随即实验的输出
(b) 某随机变量的概率分布:指定了取值为任何以可能只yi的可能性Pr(Y=yi)
(c) 随机变量Y的期望值(均值)E[Y]
(d) 随机变量的方差: Var(Y)=E[(YE[y])2]
(e) Y的标准差
(f) 二项分布:给出了当单个硬币投掷出正面概率为p时,在n个独立硬币投掷样本中观察到r次正面的概率 :
若随机变量X遵循二项分布:
期望: E[x]=np
方差:Var(X)=np(1p)
对于足够大的n值,二项分布很接近于哟同样均值和方差的正态分布。建议在np(1p)>=5时来近似。
(h)正态分布
(i) 中心极限定理:说明独立同分布的随机变量的总和遵循正态分布
(j) 估计量: 一个随机变量Y,被用来估计一个基准总体的某一参数p
(k)Y的估计偏差: 作为p的估计量:E[Y]p 无偏估计量: 估计偏差为0
(l) N%置信区间: 用作估计参数p,该区间包含p的概率为N%

==========================================
i 二项分布的具体形式依赖于样本大小 n 以及概率 p

1) 有一基本实验(如投掷硬币),其输出可以被描述为随机变量Y。随机变量Y有两种取值(1、0)
2) 在实验的任意一次尝试中,Y=1的概率为常数p。各实验独立。一般p预先未知,面临的问题就是如何去估计它。
3)基本实验的n次独立尝试,生成一个独立同分布的随机变量序列:Y1,Y2,...Yn , 令R为n次实验中出现Y=1的次数: R=ni=1Yi
4) 随即变量R取特定值r的概率(观察到r次正面)有二项分布给出:
Pr(P=r)=n!r!(nr)!pr(1p)nr

ii 估计量
用二项分布的术语来定义errorsherrorPh
errorsh=rn
errorPh=p
其中,n为样本S中的实例数,r是S中被h误分类的实例数。p为从P中抽取一实例被误分类的概率。
统计学中,将 error_{s}{h} 称为真实错误率error_{P}{h}的一个估计量,通常估计量用来估计某基本总体的某一参数的随机变量。估计偏差作为估计量的期望值同真实参数值之间的差异。

iii 正态分布
一个正态分布(高斯分布)是一个钟形分布,它定义为下面的密度函数:
p(x)=12πσ2e12(xμσ)2

如果随机变量X遵循正态分布:
X落入到(a,b)的概率为: bap(x)dx
X期望值:E[X]=μ
X方差:Var(X)=σ2

中心极限定理:考虑独立同分布的随机变量Y1,Y2,,,,,Yn 他们服从一任意概率分布,均值为μ 有限方差为σ2, 定义样本均值Yn¯=ni=1Yi.则当ninf :
Yn¯μσn 服从均值为0 方差为1的正态分布。

中心极限定理说明了在n趋近于无穷时,Yn¯所服从的分布为正态分布,而不用去管Yi本身服从什么样的分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值