贝叶斯学习 -- matlab、python代码分析（1）

最新推荐文章于 2023-06-25 14:44:11 发布

原创最新推荐文章于 2023-06-25 14:44:11 发布 · 1.9k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#贝叶斯学习 #机器学习

本文探讨了在机器学习中评估假设精度的重要性，并通过贝叶斯法则详细介绍了估计假设精度的方法。文中还讨论了估计偏差和方差等问题，并利用二项分布和正态分布进行了实例分析。

目录
1. 评估假设
2. 贝叶斯法则
3. 贝叶斯分类器
4. 实例分析

1 评估假设
对假设的精度进行经验评估是机器学习中的基本问题。

1.1 估计假设精度

当数据十分充足时，假设精度的估计相对容易，但如果给定的数据集非常有限是，那么在学习学习一个概念并估计其将来的精度，会存在两个困难：
（a）估计的偏差
（b）估计的方差

本文使用框架：
在假设空间上H上，学习一个目标概念（目标函数）f。目标函数f的训练样例有施教者提供给学习器：每一个实例按照概率分布P来独立的抽取，然后它连同正确的目标值f(x) 一同提供给学习器。
在此框架上，我们感兴趣的问题：
（a）给定假设h和包含若干按P分布随机抽取的样例数据集，如何针对按同样分布抽取的实例，得到对h的精度的最好估计。
（b）这一精度估计的可能的误差是多少？
为了解决上面的问题，需要确切的区分出两种精度（错误率）：
样本错误率：对于从所有可能实例的空间X中抽取的样本S，某假设关于S的样本错误率为：该假设错误分类的实例在S中所占的比例。 $error_{s}{h}$
真实错误率：对于按P分布随机抽取的实例，该假设对它错误分类的概率。 $error_{P}{h}$
我们通常想知道真实错误率，因为这是在分类未来样例时可以预料到的错误。然而，我们所能测量的是样本错误率。所以，我们要弄明白： $error_{s}{h}$ 在何种程度上提供了对 $error_{P}{h}$ 的估计？

1.2 采样理论基础
这里介绍几个统计雪中常用的几个定义概念
(a) 随机变量：随即实验的输出
(b) 某随机变量的概率分布：指定了取值为任何以可能只 $y_{i}$ 的可能性 $Pr(Y=y_{i})$
(c) 随机变量Y的期望值（均值） $E[Y]$
(d) 随机变量的方差： $Var(Y)=E[(Y-E[y])^{2}]$
(e) Y的标准差
(f) 二项分布：给出了当单个硬币投掷出正面概率为ｐ时，在ｎ个独立硬币投掷样本中观察到r次正面的概率：
若随机变量X遵循二项分布：
期望： $E[x] =np$
方差： $Var(X)=np(1-p)$
对于足够大的n值，二项分布很接近于哟同样均值和方差的正态分布。建议在 $np(1-p)>=5$ 时来近似。
(h)正态分布
(i) 中心极限定理：说明独立同分布的随机变量的总和遵循正态分布
(j) 估计量: 一个随机变量Y，被用来估计一个基准总体的某一参数p
(k)Y的估计偏差：作为p的估计量： $E[Y]-p$ 无偏估计量：估计偏差为0
(l) N%置信区间：用作估计参数p，该区间包含p的概率为N%

==========================================
i 二项分布的具体形式依赖于样本大小 n 以及概率 p

1）有一基本实验（如投掷硬币），其输出可以被描述为随机变量Y。随机变量Y有两种取值（1、0）
2）在实验的任意一次尝试中，Y=1的概率为常数p。各实验独立。一般p预先未知，面临的问题就是如何去估计它。
3）基本实验的n次独立尝试，生成一个独立同分布的随机变量序列： $Y_{1}, Y_{2}, ...Y_{n}$ , 令R为n次实验中出现Y=1的次数： $R=\sum_{i=1}^{n}{Y_{i}}$
4）随即变量R取特定值r的概率（观察到r次正面）有二项分布给出：
$Pr(P=r)=\frac{n!}{r!(n-r)!}p^{r}(1-p)^{n-r}$

ii 估计量
用二项分布的术语来定义 $error_{s}{h}$ 和 $error_{P}{h}$ ：
$error_{s}{h} = \frac{r}{n}$
$error_{P}{h} = p$
其中，n为样本S中的实例数，r是S中被h误分类的实例数。p为从P中抽取一实例被误分类的概率。
统计学中，将 error_{s}{h} 称为真实错误率error_{P}{h}的一个估计量，通常估计量用来估计某基本总体的某一参数的随机变量。估计偏差作为估计量的期望值同真实参数值之间的差异。

iii 正态分布
一个正态分布（高斯分布）是一个钟形分布，它定义为下面的密度函数：
$p(x)=\frac{1}{\sqrt{2\pi{\sigma^{2}}}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$

如果随机变量X遵循正态分布：
X落入到（a,b）的概率为： $\int_{a}^{b}p(x)dx$
X期望值： $E[X]=\mu$
X方差： $Var(X)=\sigma^2$

中心极限定理：考虑独立同分布的随机变量 $Y_{1},Y_{2},,,,,Y_{n}$ 他们服从一任意概率分布，均值为 $\mu$ 有限方差为 $\sigma^{2}$ ，定义样本均值 $\bar{Y_{n}}=\sum_{i=1}^{n}{}Y_{i}$ .则当 $n\rightarrow \inf$ :
$\frac{\bar{Y_{n}}-\mu}{\frac{\sigma}{\sqrt{n}}}$ 服从均值为0 方差为1的正态分布。