梯度与优化方法-优快云博客

                <!-- flowchart 箭头图标 勿删 -->
                <svg xmlns="http://www.w3.org/2000/svg" style="display: none;">
                    <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path>
                </svg>
                                        <h2><a name="t0"></a><a id="_1"></a>梯度</h2>

在机器学习中，我们通常需要对问题进行建模，然后可以得到一个成本函数(cost function)，通过对这个成本函数进行最小化，我们可以得到我们所需要的参数，从而得到具体的模型。这些优化问题中，只有少部分可以得到解析解(如最小二乘法)，而大部分这类优化问题只能迭代求解，而迭代求解中两种最常用的方法即梯度下降法与牛顿法。

梯度概念是建立在偏导数与方向导数概念基础上的。所谓偏导数，简单来说是对于一个多元函数，选定一个自变量并让其他自变量保持不变，只考察因变量与选定自变量的变化关系。数学上说，是指对于多元函数 $y=f(x1,x2,...xn)y=f(x1,x2,...xn) y=f(x_1,x_2,...x_n)$ $f (x, y) = x y$ ，其等高线图与梯度向量如下：

在这里插入图片描述
我们可以两个角度考虑：第一，在特定函数点，固定每次移动的步长，向那个方向移动函数值增长最快？第二，固定需要增加的函数值，向哪个方向需要移动的步长最短？

在左图中，固定移动的步长，我们可以看到垂直于等高线图的方向即为函数值增长最快的方向，也就是梯度向量指示的方向。在右图中，假设函数值有一个固定的微小的增长，则明显梯度向量指示的方向所需要的步长最短，而这个向量也是垂直于等高线的。