机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。
一、极大似然估计(Maximam Likelihood Estimation,MLE )
在了解极大似然估计之前,我们首先要明确什么是似然函数(likelihood function),对于 p ( x ∣ θ ) p(x|θ) p(x∣θ),
当 θ θ θ是已知, x x x是变量, p ( x ∣ θ ) p(x|θ) p(x∣θ)表示概率函数,描述的是 x x x出现的概率是多少;
当 x x x是已知, θ θ θ是变量, p ( x ∣ θ ) p(x|θ) p(x∣θ)表示似然函数,描述的是对于不同的模型( θ θ θ决定)出现样本点 x x x的概率是多少。
似然可以理解为概率,只是表征的含义不同,通常利用求极大似然来确定模型参数,极大似然的描述如下:
极大似然估计是一种已知样本,估计参数的方法。通过给定样本集 D D D估计假定模型的参数,极大似然估计可以帮助我们从参数空间中选择参数,使该参数下的模型产生 D D D的概率最大。
1.求解极大似然函数
重要前提:训练样本的分布能够代表样本的真实分布,每个样本集中的样本都是独立同分布的随机变量,并且有充分的训练样本。
已知样本集D={
x 1 , x 2 , x 3 , . . . , x m x_1,x_2,x_3,...,x_m x1,x2,x3,...,xm},{
y 1 , y 2 , y 3 , . . . , y m y_1,y_2,y_3,...,y_m y1,y2,y3,...,ym},则似然函数表示为
L ( θ ) = p ( y ∣ x ; θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) L(θ)=p(y|x;θ)=\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ) L(θ)=p(y∣x;θ)=i=1∏mp(y(i)∣x(i);θ),
确定 θ θ θ使模型出现样本集D的概率(表示为条件概率)最高即为我们所求,即
θ = a r g m a x L ( θ ) = a r g m a x ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) θ=argmaxL(θ)=argmax\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ) θ=argmaxL(θ)=argmaxi=1∏mp(y(i)∣x(i);θ),
为便于计算与分析,定义了对数似然函数 H ( θ ) = l o g L ( θ ) H(θ)=logL(θ) H(θ)=logL(θ), θ = a r g m a x ∑ i = 1 m l o g p ( y ( i ) ∣ x ( i ) ; θ ) θ=argmax\displaystyle\sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};θ) θ=argmaxi=1∑mlogp(y(i)∣x(i);θ),现在我们确定了目标函数 H ( θ ) H(θ) H(θ),需要求得一组 θ θ θ使 H ( θ ) H(θ) H(θ)最大,可以通过求导数的方法解决这个问题,以高斯分布的参数估计(Gaussian Parameter Estimation)为例,求解过程如下,
设样本服从正态分布 N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2),首先写出似然函数 L ( μ , σ 2 ) = p ( x ; μ , σ 2 ) = ∏ n = 1 N N ( x n ; μ , σ 2 ) L(μ,σ^2)=p(x;μ,σ^2)=\displaystyle\prod_{n=1}^{N}N(x_n;μ,σ^2) L(μ,σ2)=p(x;μ,σ2)=n=1∏NN(xn;μ,σ2)

L ( μ , σ 2 ) L(μ,σ^2) L(μ,σ2)的对数为:

求导,得方程组:

解得:


2.误差平方和的解释
在模式识别与机器学习(一)中我们讲到采用误差平方和原理来求解多项式系数,为何使用误差平方和作为衡量模型精度的标准呢?用极大似然估计可以解释。
我们观察下图,这是上一节课中讲到的多项式曲线拟合模型,红色曲线代表拟合结果,蓝色点代表样本点。

我们把每一个 x x x看作独立的随机变量,对应的样本点 t t t服从均值为 y ( x 0 , w ) y(x_0,w) y(x0,w)的正态分布(一般来讲,误差服从均值为零的正态分布,平移 y ( x 0 , w ) y(x_0,w) y(x0,w)个单位),即 p ( t ∣ x 0 , w , β ) = N ( t ∣ y ( x