机器学习:贝叶斯派和频率派

对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
XN×P=(x1,x2,x3,⋅⋅⋅,xN)T,xi=(xi1,xi2,xi3,⋅⋅⋅,xip)T X_{N \times P}= (x_1,x_2,x_3,\cdot \cdot \cdot,x_N)^T, x_i =(x_{i1},x_{i2},x_{i3}, \cdot \cdot \cdot,x_{ip})^T XN×P=(x1,x2,x3,,xN)T,xi=(xi1,xi2,xi3,,xip)T
这个记号表示有 NNN个样本,每个样本都是 ppp维向量。其中每个观测都是由p(x∣θ)p(x|\theta)p(xθ) 生成的。

贝叶斯派

贝叶斯派认为p(x∣θ)p(x|θ)p(xθ)θθθ不是一个常量。这个θθθ满足一个预设的先验的分布 θ∼p(θ)θ\sim p(θ)θp(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p(θ∣X)=p(X∣θ)⋅p(θ)p(x)=p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ p(θ|X)= \frac{ p(X|θ) \cdot p(θ)}{p(x)} = \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} p(θX)=p(x)p(Xθ)p(θ)=θp(Xθ)p(θ)dθp(Xθ)p(θ)
这里的解释:

参数θ\thetaθ 视为随机变量,他有自己的先验分布p(θ)p(\theta)p(θ)。当我们要计算观测数据 XXX 出现的 “绝对概率$ p(X)$ 时,需要考虑参数 θ\thetaθ 所有可能取值对 p(X)p(X)p(X) 的贡献 。根据全概率公式,对于连续型随机变量θ\thetaθ ,观测数据XX

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值