一、前言
- 似然估计是最传统、使用最广泛的参数估计方法之一,而参数估计是机器学习里面的一个重要主题。
- 对于一系列观察数据,可以找到一个具体分布来描述,但不清楚分布的参数。这时候就需要用极大似然估计来求解这个分布的参数。
- 极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”
二、概述
1.本质:对于极少的样本观测,极大似然估计认为,观测到的样本就是发生概率最大的。
2.似然函数:前提是样本独立同分布,似然函数L(p)L(p)L(p)是每个样本出现概率的乘积p(xi)。
3.极大似然估计的思想:让似然函数L(p)L(p)L(p)的值最大,把这时对应的概率ppp作为我们的估计值。
求一阶导数得到似然函数的最大值点p:dL(p)dp=0\frac{dL(p)}{dp}=0dpdL(p)=0
4.极大似然估计蕴含了估计量的泛函不变性、相合性、渐近有效性和渐进正态等诸多逆天的性质。
5.极大似然估计暗合了切比雪夫大数定律,所以在用“局部估计整体”时,可以说使用了极大似然估计法,也可以说根据大数定律。
三、具体步骤
1.似然函数
大似然估计值θ^\hat \thetaθ^都满足:L(θ^)=maxL(data∣θ)L(\hat \theta)=\max{L(data|\theta)}L(θ^)=maxL(data∣θ),data=(x1,x2,…,xn)表示样本数据的集合,θ=(p1,p2,…,pn)是参数(概率)的集合,例如抛硬币就只有正面反面两个概率 [公式],投掷骰子就有六个面的六个概率
其中,对于离散型随机变量的似然函数是:L(data∣θ)=∏i=1NP(xi)L(data|\theta) = \prod_{i=1}^N P({x_i})L(data∣θ)=∏i=1NP(xi)
连续性随机变量的似然函数是:L(θ)=∏i=1NP(xi)L(\theta) = \prod_{i=1}^N P({x_i})L(θ)=∏i=1NP(xi)
2.样本假设:假设样本观测值为xi
3.求解方程:
求似然函数的一阶导:dL(p)dp=0\frac{dL(p)}{dp}=0dpdL(p)=0或者d(lnL(p))dp=0\frac{d(\ln{L(p)})}{dp}=0dpd(lnL(p))=0
注意:当方程无解时,应从定义出发,考虑L(θ)的单调性,找到maxL(θ)对应的估计值。
4.带入数据:将xi用真实数据替换
注意:若是多参数,则似然函数对各部分参数求偏导组成方程组来进行求解
四、常用分布的估计值
任意概率分布:p^=kN\hat p = \frac{k}{N}p^=Nk
正态分布:μ^=x‾=1n∑i=1nxi,σ2^=1n∑i=1N(xi–x‾)2\hat \mu = \overline x = \frac{1}{n}\sum_{i=1}^n{x_i},\hat{\sigma^2}=\frac{1}{n}\sum_{i=1}^N(x_i – \overline x)^2μ^=x=n1∑i=1nxi,σ2^=n1∑i=1N(xi–x)2
泊松分布:λ^=x‾=1n∑i=1nxi\hat \lambda = \overline x = \frac{1}{n}\sum_{i=1}^n{x_i}λ^=x=n1∑i=1nxi
均匀分布:a^=minxi,b^=maxxi\hat a = \min{x_i},\hat b = \max{x_i}a^=minxi,b^=maxxi
五、最大似然估计和贝叶斯估计
最大似然估计是传统频率派估计参数的方法,认为θ是一个固定的值。
贝叶斯估计是贝叶斯统计派估计参数的方法。认为θ是一个满足某个分布的随机变量。泛化能力更好,但计算更复杂。
本文介绍了极大似然估计作为参数估计的重要方法,详细阐述了其基本概念、似然函数、具体求解步骤,并举例说明了常用分布如正态、泊松和均匀分布的估计值。同时对比了极大似然估计与贝叶斯估计的区别。
3947

被折叠的 条评论
为什么被折叠?



