统计学中有两个主要学派:频率学派(又称经典学派)和贝叶斯学派。
频率学派利用总体信息和样本信息进行统计推断,贝叶斯学派与之的区别在于还用到了先验信息。
贝叶斯公式
P ( A , B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(A,B)=P(A|B)P(B)=P(B|A)P(A) P(A,B)=P(A∣B)P(B)=P(B∣A)P(A)
P ( B ∣ A ) = P ( A , B ) P ( A ) P(B|A)=\frac{P(A,B)}{P(A)} P(B∣A)=P(A)P(A,B)
全概率公式
P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i=1}^nP(A|B_i)P(B_i) P(A)=i=1∑nP(A∣Bi)P(Bi)
贝叶斯统计基本原理
贝叶斯学派最基本的观点是:任一未知量 θ \theta θ (或者 λ \lambda λ, μ \mu μ 和 τ \tau τ) 都可以看做随机变量,可用一个概率分布去描述,这个分布称为先验分布 (记为 π ( θ ) \pi(\theta) π(θ))。
因为任一未知量都有不确定性,而在表述不确定性地程度时,概率与概率分布是最好的语言。依赖于参数 θ \theta θ的密度函数在经典统计学中记为 p ( x , θ ) p(x,\theta) p(x,θ),它表示参数空间 Θ \Theta Θ中不同的 θ \theta θ对应不同的分布。在贝叶斯统计中应记为 p ( x ∣ θ ) p(x|\theta) p(x∣θ),表示随机变量 θ \theta θ给定某个值时, X X X的条件密度函数。
在获得样本之后,总体分布、样本与先验分布通过贝叶斯公式结合起来,得到一个关于未知量 θ \theta θ的新分布——后验分布,任何 θ \theta θ的统计推断都应该基于 θ \theta θ的后验分布进行。
从贝叶斯观点看,样本 x x x的产生要分两步进行:首先,设想从先验分布 π ( θ ) \pi(\theta) π(θ)中产生一个样本 θ ′ \theta' θ′,这一步人是看不到的,所以是“设想”(注意设想也是有意义的,它反映了同一事件不同人的不同看法,为个人之见的差异留有余地);再从 p ( x ∣ θ ′ ) p(x|\theta') p(x∣θ′) 中产生一个样本 x = ( x 1 , x 2 , x 3 , … , x n ) x=(x_1,x_2,x_3,…,x_n) x=(x1,x2,x3,…,xn)。这时样本 x x x的联合条件密度函数为: