概率模型的训练过程就是参数估计(parameter estimation)的过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案:
- 频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值
- 贝叶斯学派(Beyesian)则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
最大似然估计(MLE)
频率主义学派,根据数据采样来估计频率分布参数。
最大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
假设m个样本的数据集X=x1,x2,...,xmX=x1,x2,...,xm,独立地由未知真实数据生成分布pdata(x)pdata(x)生成。pmodel(x;θ)pmodel(x;θ)是一族由θθ确定在相同空间上的概率分布。对θθ的最大似然估计:
θML=argmaxθpmodel(X;θ)=argmaxθ∏i=1mpmodel(xi;θ)θML=argmaxθpmodel(X;θ)=argmaxθ∏i=1mpmodel(xi;θ)
多个概率的乘积计算中可能造成数值下溢,取对数:
θML=argmaxθ∑i=1mlogpmodel(x