p ( x ∣ θ ) p(x|\theta) p(x∣θ)
若 θ \theta θ是确定值, x x x是变量,则 p ( x ∣ θ ) p(x|\theta) p(x∣θ)描述了不同的 X = x X=x X=x出现的概率 --> 概率函数 probability
若 θ \theta θ是变量, x x x是已知数据,则 p ( x ∣ θ ) p(x|\theta) p(x∣θ)描述了不同的模型参数下出现这个 x x x的概率 --> 似然函数 likelihood
MLE (Maximum Likelihood Estimation)
拿一枚硬币(不一定均匀)抛掷实验10次,得到正(1)反(0)结果: x 0 = [ 0 , 1 , 1 , 1 , 1 , 0 , 1 , 1 , 1 , 0 ] x_0=[0,1,1,1,1,0,1,1,1,0] x0=[0,1,1,1,1,0,1,1,1,0]
假设抛硬币正面朝上概率是 θ \theta θ
那么,出现 X = x 0 X=x_0 X=x0的似然 L = θ 7 × ( 1 − θ ) 3 L=\theta^7 \times (1-\theta)^3 L=θ7×(1−θ)3
经计算发现,当 θ = 0.7 \theta = 0.7 θ=0.7时出现这个 x 0 x_0 x0的概率最大( p ( x ∣ θ ) p(x|\theta) p(x∣θ)极大)
频率学派,认为 θ \theta θ是确定的值。
MAP (Maximum A Posteriori)
p ( θ ∣ x 0 ) = p ( x 0 ∣ θ ) × p ( θ ) p ( x 0 ) ∝ p ( x 0 ∣ θ ) × p ( θ ) p(\theta|x_0) = \frac {p(x_0|\theta) \times p(\theta)}{p(x_0)} \propto p(x_0|\theta) \times p(\theta) p(θ∣x0)=p(x0)p(x0∣θ)×p(θ)∝p(x0∣θ)×p(θ)
p ( θ ∣ x 0 ) p(\theta|x_0) p(θ∣x0)是后验概率
上式中 p ( x 0 ) p(x_0) p(x0)是一个已知值(例如试验1000次出现某个结果10次,则 p ( x 0 ) = 0.1 p(x_0)=0.1 p(x0)=0.1)
最大化 p ( θ ∣ x 0 ) p(\theta|x_0) p(θ∣x0)的意义: x 0 x_0 x0已经出现, θ \theta θ取什么值时 p ( θ ∣ x 0 ) p(\theta|x_0) p(θ∣x0)最大
先验 p ( θ ) = 0.5 p(\theta)=0.5 p(θ)=0.5是在没有数据之前的猜测
统计学派,认为 θ \theta θ是变量,需要根据观测数据更新。
本文介绍了MLE(极大似然估计)和MAP(最大后验估计)的概念。在概率论和统计学中,MLE通过最大化似然函数来估计固定参数下的变量概率分布,而MAP则考虑了先验概率,通过最大化后验概率来估计变量的最可能值。以抛硬币为例,解释了两者如何应用于实际问题中。
1850

被折叠的 条评论
为什么被折叠?



