极大似然估计又叫最大似然估计(MLE,Maximum Likelihood Estimation),极大似然在数据分析领域中一般是对变量求偏导数或对矩阵求偏导数,然后偏导数为0求解一般为最小值解。因为统计领域大部分都是下凹的函数。随机误差为正态分布时,极大似然的求解正好为最小二乘求解。
极大似然原理:给定一个概率分布DDD,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为fDf_DfD,设分布参数为θ\thetaθ,似然函数为:
L(θ ∣ x(1),x(2),...,x(n))=fθ(x(1),x(2),...,x(n))
\large{L(\theta\ |\ x^{(1)},x^{(2)},...,x^{(n)})=f_{\theta}(x^{(1)},x^{(2)},...,x^{(n)})}
L(θ ∣ x(1),x(2),...,x(n))=fθ(x(1),x(2),...,x(n))
fθf_{\theta}fθ即为这个采样的概率,若是连续分布,其值为这些采样(x(1),x(2),...,x(n)x^{(1)},x^{(2)},...,x^{(n)}x(1),x(2),...,x(n))联合分布的概率密度函数在观测值处的取值。极大似然就是寻找θ\thetaθ可能的取值,使得样本值的概率最大化,也就是样本的可能性最大。所以从数学上就是使得似然函数的值最大,此时的θ\thetaθ的值称为极大似然估计。似然函数是样本的函数。
离散分布极大似然:假设有一个硬币,正反面重量不同,抛出正面的概率为ppp,抛出反面的概率为1−p1-p1−p。把这个硬币抛80次,正面记为HHH,反面记为TTT。得到一个样本:x(1)=H,x(2)=T,...,x(80)=Tx^{(1)}=H,x^{(2)}=T,...,x^{(80)}=Tx(1)=H,x(2)=T,...,x(80)=T,正面49次,反面31次。ppp即为要求的θ\thetaθ。似然函数为:
L(p)=fD(H=49,T=31 ∣ p)=(8049)p49(1−p)31
\large{L(p)=f_D(H=49,T=31\ |\ p)=\binom{80}{49}p^{49}(1-p)^{31}}
L(p)=fD(H=49,T=31 ∣ p)=(4980)p49(1−p)31
求偏导得:
0=ddp((8049)p49(1−p)31)=p48(1−p)30[49(1−p)−31p]
\large{\begin{aligned}0&=\frac{d}{dp}(\binom{80}{49}p^{49}(1-p)^{31})\\
&=p^{48}(1-p)^{30}[49(1-p)-31p]\end{aligned}}
0=dpd((4980)p49(1−p)31)=p48(1−p)30[49(1−p)−31p]
得到p=0,p=1,p=4980p=0,p=1,p=\frac{49}{80}p=0,p=1,p=8049,这个值可以扩展成一般化p=knp=\frac{k}{n}p=nk。
连续分布极大似然:连续型似然函数值最大也就是指概率密度函数值的乘积最大(前提是每个样本是独立的,基本都是独立的,这里带验证?)。公式如下:
L(θ)=∏i=1nfθ(x(i))
\large{L(\theta)=\prod_{i=1}^nf_{\theta}(x^{(i)})}
L(θ)=i=1∏nfθ(x(i))
一般连续概率分布都服从正太分布(μ,σ2)(\mu, \sigma^2)(μ,σ2)(实际应用中误差项多服从(0,σ2)(0, \sigma^2)(0,σ2))。似然函数为:
∏i=1n12πσexp(−(x(i)−μ)22σ2)(θ=(μ,σ2),也就是参数θ由μ和σ组成)
\large{\prod_{i=1}^n\frac1{\sqrt{2\pi}\sigma}\exp{(-\frac{(x^{(i)}-\mu)^2}{2\sigma^2})}\quad\\(\theta=(\mu,\sigma^2),也就是参数\theta由\mu和\sigma组成)}
i=1∏n2πσ1exp(−2σ2(x(i)−μ)2)(θ=(μ,σ2),也就是参数θ由μ和σ组成)
然后取对数,乘法转为加法,接着求偏导数,并令其等于0得:
μ^=1n∑i=1nx(i),σ^2=1n∑i=1n(x(i)−μ^)2
\large{\hat\mu=\frac1n\sum_{i=1}^nx^{(i)},\quad\hat\sigma^2=\frac1n\sum_{i=1}^n(x^{(i)}-\hat\mu)^2}
μ^=n1i=1∑nx(i),σ^2=n1i=1∑n(x(i)−μ^)2