最小二乘法是常见的构造代价函数, 拟合参数的方法,如下:
Cost=(h(x)-y)^2
这里探讨最小二乘的概率依据。
最大释然理论
一个简单的例子:
假设一个袋子里有无限个球,白球出现的比例是P,黑球为1-P。
那么我从中取10个球,得到了7个白球,很自然的,我们会估计白球出现的比例P=0.7;
继续,我们取100个球,得到了75个白球,我们会继续估计P=0.75。
也就是,我们通过观察到的事件,反过来推其中的概率分布。
现在给定一个分布D,假设其概率密度函数为f(D),其中有参数sita。我们从中采样得到样本x1,x2,…,xn,但是并不知道参数sita。那么我们希望通过这些观测值xi,反过来推导出最有可能的sita。
按照概率密度函数,写出事件(x1,x2,…,xn)出现的联合概率:
其中参数sita未知。
我们可以基于这样一个假设:真实的sita会使得如上的事件(x1,x2,…xn)发生的概率最大。
于是,我们把sita当做未知数,得到一个最优化问题:
Max(P(x1,x2,…,xn))。
最终得到的sita就是我们对于未知参数的估计,也就是最大释然估计。
概率假设
在线性回归中,我们假设X,Y满足线性相关:
在上述的最大释然方法中,我们需要事先知道,或者假设样本处于某种分布,只是其中的参数未知。
这里我们也可以假设y属于某个分布,得到其概率密度函数。因为我们已有许多观察值(y1,y2,…,yn),再套用上面最大释然的方法,可以求得其中的未知参数。
一般的,我们假设y是关于x的线性函数,并且加上一个噪声,这个噪声可以是取样或是其他各种原因造成的,写成:
其中,e满足高斯分布:
那么y也就满足高斯分布:
现在概率分布假设写出来了,直接套用最大释然的方法,得到:
最大化如上的最大释然函数,也就是最大化其中的,也就是最小二乘项。
小结
当我们假设Y满足高斯分布时,使用最小二乘法,也就等于使用最大释然法,其具备合理的概率解释。