极大似然估计是一种概率论在统计学中的应用,建立在极大似然原理的基础上,极大似然原理的直观解释是:一个随机试验如有若干个可能的结果A、B、C、…,若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大,那么就取参数估计,使A出现的概率最大。
设随机变量Y具有概率密度函数,θ是参数向量。当我们得到Y的一组独立观测值
时,定义θ的似然函数为
。极大似然法是采用使L(θ)最大的θ的估计值
作为参数值。
为了计算方便,我们通常求使最大的θ的估计值,这与L(θ)最大是等价的,由于
,当
,几乎处处有
在观测样本已知的情况下,N是定值,那么,极大似然估计是使
最大的θ的估计值。若Y的真实分布的密度函数为g(y),我们有
衡量两个分布g(·)和f(·|θ)差异性的统计量KL散度(或者相对熵)为:
只有当g(y)等于f(y|θ)时,KL散度才为0,因此,当随机变量Y给定时,为定值,
最大化,就是
最小化,即求最近似于g(y)的f(y|θ)。这个解释从信息论的角度透彻地说明了极大似然法的本质。