1. 模型表示
让我们通过一个例子来开始:这个例子是预测住房价格的,我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。这就是线性回归的一个例子。
一种可能的表达方式为:hθ(x)=θ0+θ1xh_\theta \left( x \right)=\theta_{0}+\theta_{1}xhθ(x)=θ0+θ1x,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。
\newline
\newline
2. 代价函数
在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如 m=47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性函数形式:hθ(x)=θ0+θ1xh_\theta \left( x \right)=\theta_{0}+\theta_{1}xhθ(x)=θ0+θ1x。
我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。
我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价函数 :J(θ0,θ1)=12m∑i=1m(hθ(x(i)−y(i))J\left(\theta_{0},\theta{1}\right) = \frac{1}{2m}\sum\limits_{i=1}^m\left( h_\theta { (x^{(i)}-y^{(i) } } \right)J(θ0,θ1)=2m1i=1∑m(hθ(x(i)−y(i))最小
我们绘制一个等高线图,三个坐标分别为θ0\theta_{0}θ0和θ1\theta_{1}θ1和J(θ0,θ1)J\left( \theta_{0}, \theta_{1}\right)J(θ0,θ1):
则可以看出在三维空间中存在一个使得J(θ0,θ1)J\left( \theta_{0}, \theta_{1}\right)J(θ0,θ1)最小的点。
代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。
\newline
\newline
3. 梯度下降
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数J(θ0,θ1)J\left( \theta_{0}, \theta_{1}\right)J(θ0,θ1)的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,θ2......θn)\left(\theta_{0},\theta_{1},\theta_{2}......\theta_{n}\right)(θ0,θ1,θ2......θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转360度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。
批量梯度下降(batch gradient descent)算法的公式为:
其中α\alphaα是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
3.1 梯度下降直观理解
梯度下降算法如下:
θj:=θj−α∂∂θjJ(θ)\theta_j:=\theta_j-\alpha \frac{\partial}{\partial{\theta_j}}J\left(\theta\right)θj:=θj−α∂θj∂J(θ)
描述:对θ\thetaθ赋值,使得J(θ)J\left(\theta\right)J(θ)按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中α\alphaα是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。
让我们来看看如果α\alphaα太小或α\alphaα太大会出现什么情况:
如果α\alphaα太小了,即我的学习速率太小,结果就是只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点,所以如果α\alphaα太小的话,可能会很慢,因为它会一点点挪动,它会需要很多步才能到达全局最低点。
如果α\alphaα太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果α\alphaα太大,它会导致无法收敛,甚至发散。
现在,我还有一个问题,当我第一次学习这个地方时,我花了很长一段时间才理解这个问题,如果我们预先把J(θ1)J\left(\theta_{1}\right)J(θ1)放在一个局部的最低点,你认为下一步梯度下降法会怎样工作?
假设你将J(θ1)J\left(\theta_{1}\right)J(θ1)初始化在局部最低点,在这儿,它已经在一个局部的最优处或局部最低点。结果是局部最优点的导数将等于零,因为它是那条切线的斜率。这意味着你已经在局部最优点,它使得J(θ1)J\left(\theta_{1}\right)J(θ1)不再改变,也就是新的J(θ1)J\left(\theta_{1}\right)J(θ1)等于原来的J(θ1)J\left(\theta_{1}\right)J(θ1),因此,如果你的参数已经处于局部最低点,那么梯度下降法更新其实什么都没做,它不会改变参数的值。这也解释了为什么即使学习速率α\alphaα保持不变时,梯度下降也可以收敛到局部最低点。
3.2 梯度下降的线性回归
梯度下降算法和线性回归算法比较如图:
对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:
∂∂θjJ(θ0,θ1)=∂∂θj12m∑i=1m(hθ(x(i))−y(i))2\frac{\partial }{\partial {{\theta_{j} }}}J({{\theta_{0} }},{{\theta_{1} }})=\frac{\partial }{\partial {{\theta_{j} }}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}}∂θj∂J(θ0,θ1)=∂θj∂2m1i=1∑m(hθ(x(i))−y(i))2
j=0j=0j=0 时:∂∂θ0J(θ0,θ1)=1m∑i=1m(hθ(x(i))−y(i))\frac{\partial }{\partial {{\theta_{0}}}}J({{\theta_{0} }},{{\theta_{1} }})=\frac{1}{m}{{\sum\limits{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}}∂θ0∂J(θ0,θ1)=m1∑i=1m(hθ(x(i))−y(i))
j=1j=1j=1 时:∂∂θ1J(θ0,θ1)=1m∑i=1m((hθ(x(i))−y(i))⋅x(i))\frac{\partial }{\partial {{\theta_{1}}}}J({{\theta_{0} }},{{\theta_{1} }})=\frac{1}{m}\sum\limits{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}∂θ1∂J(θ0,θ1)=m1∑i=1m((hθ(x(i))−y(i))⋅x(i))
则算法改写成:
Repeat {
θ0:=θ0−a1m∑i=1m(hθ(x(i))−y(i)){\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}θ0:=θ0−am1i=1∑m(hθ(x(i))−y(i))
θ1:=θ1−a1m∑i=1m((hθ(x(i))−y(i))⋅x(i)){\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}θ1:=θ1−am1i=1∑m((hθ(x(i))−y(i))⋅x(i))
}