对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
XN×P=(x1,x2,x3,⋅⋅⋅,xN)T,xi=(xi1,xi2,xi3,⋅⋅⋅,xip)T X_{N \times P}= (x_1,x_2,x_3,\cdot \cdot \cdot,x_N)^T, x_i =(x_{i1},x_{i2},x_{i3}, \cdot \cdot \cdot,x_{ip})^T XN×P=(x1,x2,x3,⋅⋅⋅,xN)T,xi=(xi1,xi2,xi3,⋅⋅⋅,xip)T
这个记号表示有 NNN个样本,每个样本都是 ppp维向量。其中每个观测都是由p(x∣θ)p(x|\theta)p(x∣θ) 生成的。
贝叶斯派
贝叶斯派认为p(x∣θ)p(x|θ)p(x∣θ)中θθθ不是一个常量。这个θθθ满足一个预设的先验的分布 θ∼p(θ)θ\sim p(θ)θ∼p(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p(θ∣X)=p(X∣θ)⋅p(θ)p(x)=p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ p(θ|X)= \frac{ p(X|θ) \cdot p(θ)}{p(x)} = \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} p(θ∣X)=p(x)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
这里的解释:
参数θ\thetaθ 视为随机变量,他有自己的先验分布p(θ)p(\theta)p(θ)。当我们要计算观测数据 XXX 出现的 “绝对概率$ p(X)$ 时,需要考虑参数 θ\thetaθ 所有可能取值对 p(X)p(X)p(X) 的贡献 。根据全概率公式,对于连续型随机变量θ\thetaθ ,观测数据XX

最低0.47元/天 解锁文章
1364

被折叠的 条评论
为什么被折叠?



