1、前言
我们讨论的是有参的情况,在这种情况中,我们的目标是估计参数值(假设有可能确定真是参数),而不是函数值。在概率论中,参数估计有点估计(point estimation)和区间估计(interval estimation)两种。而 ML 中主要是构造点估计的方法常用的有:①最大似然估计法,用来求一个样本集的相关概率密度函数的参数;②最小二乘法,主要用于线性统计模型中的参数估计问题;③贝叶斯估计法;等等。
2、最大似然估计法 MLE
MLE(maximum likelihood estimation)通常是机器学习中首选的估计方法,因为它具有一致性(当训练样本数目趋向无穷大时,参数的最大似然估计就会收敛到参数的真实值) 和 统计效率(输入与输出存在不平衡的关系)。
最大似然参数求解的核心思想就是构造当前样本出现的联合概率函数,对其求偏导,让当前样本的概率最大的就是模型参数。
考虑一组含有 m 个样本的数据集X= \{ x 1 , x 2 , . . . , x m \} x_1,x_2,...,x_m\brace {
x1,x2,...,xm} ,独立地由未知的真实数据生成分别 p d a t a ( x ) p_{data} (x) pdata(x)生成。令 p m o d e l ( x ; θ ) p_{model} (x;\theta) pmodel(x;θ)是一族由 θ \theta θ确定的相同空间上的概率分布。对 θ \theta θ的MLE被定义为:
(1) θ M L = arg max θ p m o d e l ( X ; θ ) = arg max θ ∏ i m p ( x i ; θ ) \theta_{ML} = \arg\max_{\theta}p_{model} (X;\theta) =\arg\max_{\theta}\prod_{i}^{m} p(x_i;\theta) \tag{1} θML=argθmaxpmodel(X;θ)=argθmax