贝叶斯估计-伯努利模型

原创已于 2023-07-17 15:59:49 修改 · 953 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #机器学习 #人工智能

于 2023-07-17 15:52:43 首次发布

文章介绍了贝叶斯估计的基本原理，包括贝叶斯公式、全概率公式及其应用。贝叶斯估计视参数为随机变量，结合先验知识和样本数据进行参数估计。文中以垃圾邮件识别为例解释了贝叶斯估计的过程，并详细展示了在伯努利模型中的应用，通过均匀分布的先验假设，求得了参数p的贝叶斯估计量。

一、贝叶斯估计原理

1.贝叶斯公式

条件概率公式：$$P(A|B)=\frac{P(AB)}{p(B)}$$

由条件概率公式可得：$$P(AB)=P(A|B)P(B)=P(B|A)P(A)$$

由此得贝叶斯公式：$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$ 其中P(A)为A的先验概率，P(A|B)为A在条件B下的后验概率

全概率公式：如果事件B1,B2,...,Bn构成一个完备事件组，即它们两两互不相容，其和为全集，并且任意P(Bi)均大于0，则对任一事件A有 $$P(A)=P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)$$

带入贝叶斯公式，可得其另一种形式：$$P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{j}P(B|A_j)P(A_j)}$$

2.基本概念与理解

贝叶斯估计也是一种数理统计中估计参数的模型，而其思想和最大似然估计有很大区别

对参数θ的理解不同
- 最大似然估计认为参数θ是一个未知的确定变量
- 贝叶斯估计认为参数θ是一个未知的随机变量
对估计参数θ的策略理解不同
- 最大似然估计只从样本数据入手估计参数θ
- 贝叶斯估计不仅从样本数据入手，还要引入参数θ的先验分布

θ是一个随机变量，自然有其分布，在试验前θ的分布为先验分布Π(θ)，而在试验结束后获取到(x1,x2,...,xn)样本后，以其为条件的θ分布为后验分布h(θ|x1,x2,...,xn)

理解贝叶斯估计的关键就是理解先验概率和先验分布以及后验概率和后验分布

结合上文贝叶斯公式：

例如判断一封邮件是否是垃圾邮件，在任何试验开始之前，试验者会先有一个想法，即先验知识，判断该邮件是垃圾邮件的概率是多少。这个概率和这封邮件本身没有任何关系，往往取决于所有邮件中垃圾邮件的概率是多少 -> P(A=spam)

而对邮件内容逐词分析之后，又可以根据这些词语的内容分析该邮件的概率如分析到邮件中有一个单词为“降价促销”，那么在出现“降价促销”单词的所有邮件中垃圾邮件出现的概率为样本数据下的条件概率 -> P(A=spam | word='on-sale')

贝叶斯估计，既要考虑先验概率，又要考虑样本数据下的条件概率，即：$$P(A|B)\propto P(B|A)P(A)$$

公式中还要除以P(B)，表示归一化操作，而P(B)一般是个常数，往往可以采用一些操作将其忽略

进行一次贝叶斯估计往往并不够，还需要更新估计 方法是将之前计算得到的后验分布作为新的先验分布，继续进行新的贝叶斯估计

3.贝叶斯估计

选择参数的先验分布 先验分布可以是任意形式的概率分布，通常基于领域知识或经验来选择。常见的先验分布包括均匀分布、正态分布、伽马分布、贝塔分布等 - $$\pi(y)$$ （y为θ的取值）
确定似然函数(样本数据下的条件概率) 似然函数描述了在给定参数下观测数据出现的概率 - $$f(x_1,x_2,...,x_n|y)$$
计算后验分布 通过贝叶斯定理，将先验分布与似然函数相乘并归一化得到

设样本的概率密度函数为 $$g(x_1,x_2,...,x_n)$$

计算得后验分布：$$h(y|x_1,x_2,...,x_n)=\frac{f(x_1,x_2,...,x_n|y)\pi(y)}{g(x_1,x_2,...,x_n)}\propto f(x_1,x_2,...,x_n|y)\pi(y)$$

注意，这里正比于的符号，实际上表示后者是前者的核
根据后验分布得到点估计或区间估计 在贝叶斯估计中，可以使用后验分布得到参数的点估计或区间估计
- 点估计：常见的点估计有后验分布的期望值、中位数、最大后验估计等
- 区间估计：还可以得到参数的概率区间估计，称为置信区间或可信区间。置信区间是一个区间范围，意味着在这个范围内参数的真实值落在特定的概率之内。使用后验分布的累积分布函数，可以计算得到置信区间
更新估计 一旦得到了后验分布、点估计或区间估计，可以将新的观测数据转化为先验分布，并重复上述步骤进行更新估计。通过不断地更新估计，在观测数据的作用下，即可得到更准确、更可靠的参数估计

二、伯努利模型贝叶斯估计

1.求解过程

设总体样本满足伯努利分布B(1,p)，并且假设参数p满足均匀分布，即p~U[0,1]，共n个样本，其中k个样本取值为1，n-k个样本取值为0（k=x1+x2+...+xn），求贝叶斯估计量p

带入公式：$$h(y |x_1,x_2,...,x_n)=\frac{f(x_1,x_2,...,x_n|y)\pi(y)}{g(x_1,x_2,...,x_n)}\propto f(x_1,x_2,...,x_n|y)\pi(y)$$

由于先验分布为均匀分布，$$\pi(y)=1$$

似然函数$$f(x_1,x_2,...,x_n|y)=y^k(1-y)^{(n-k)}$$

即$$h(y|x_1,x_2,...,x_n)\propto y^k(1-y)^{(n-k)}$$ 即$$h(y|x_1,x_2,...,x_n)\propto y^{n\overline{x}}(1-y)^{(n-n\overline{x})}$$

得到后验分布，这里直接使用后验分布的期望值作为贝叶斯估计量p

观察得到，后验分布实际上是贝塔分布的核，即 $$p(x1,x2,...,xn)\sim \beta(n\overline{x},n-n\overline{x}+1)$$

借助贝塔分布的期望，可以得到估计量的值： $$\tilde{p}=E(p(x1,x2,...,xn))=\frac{n\overline{x}+1}{n\overline{x}+1+n-n\overline{x}+1}=\frac{n\overline{x}+1}{n+2}=\frac{k+1}{n+2}\approx \frac{k}{n}$$

贝塔分布：是指一组定义在(0,1)区间的连续概率分布，有两个参数α, β>0

概率密度函数：$$f(x|\alpha, \beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}$$

期望：$$E(X)=\frac{\alpha}{\alpha+\beta}$$

方差：$$Var(X)=\frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$$