机器学习(二)概率密度估计之参数估计
2018/2/19
by ChenjingDing
概率密度估计总体上可分为两种方法,参数估计和非参数估计的方法。
一.参数估计
假设随机变量服从不同的分布,则可以求取该分布概率密度函数的参数。频率学派认为该参数是固定的,因此产生了最大似然估计。而贝叶斯学派认为该参数也是随机变量,产生了贝叶斯学习的方法。
1.1最大似然估计
*1.1.1最大似然估计的基本原理
目标函数:
找到参数 θ θ 使得样本x出现的概率最大。即: θ=argmaxθp(x|θ) θ = a r g m a x θ p ( x | θ )
利用导数求极值:
L(θ)=p(x|θ)=∏i=1np(xi|θ)(所有样本都独立同分布)E(θ)=−lnp(x|θ)=−ln∏i=1np(xi|θ)=−∑i=1nlnp(xi|θ) L ( θ ) = p ( x | θ ) = ∏ i = 1 n p ( x i | θ ) ( 所 有 样 本 都 独 立 同 分 布 ) E ( θ ) = − ln p ( x | θ ) = − ln ∏ i = 1 n p ( x i | θ ) = − ∑ i = 1 n ln p ( x i | θ )
maxL(θ) m a x L ( θ )
就相当于
minE(θ) m i n E ( θ )
,所以目标函数是
θ=argminθE(θ) θ = a r g m i n θ E ( θ )
;
∂E(θ)∂θ=−∂∑ni=1lnp(xi|θ)∂θ=−∑i=1n∂p(xi|θ)p(xi|θ)∂θ=0 ∂ E ( θ ) ∂ θ = − ∂ ∑ i = 1 n ln p ( x i | θ ) ∂ θ = − ∑ i = 1 n ∂ p ( x i | θ ) p ( x i | θ ) ∂ θ = 0
根据上式即可求得
θ θ
。
1.1.2高斯分布的最大似然估计
假设随机变量X服从一维高斯分布,样本 x=(