7 工作流程:
输入一个x,然后通过学习算法能够输出函数H,进而预测y。 这里的函数H是假设函数是一个引导x到y的函数。
8 如何决定函数h?通过利用代价函数。
若有训练集以及一个函数,则代价函数为
(这里m前有2是为了方便求导,下一步需要求解其最小值以使
最优。求解最小化J函数为cost function。
9 如何确定代价函数的最小值对应的最优? 利用梯度下降法
梯度下降法的思想是:开始时随机给定一个参数的组合 ,计算代价函数,然后寻找下一个能让代价函数值下降最多的参数组合,持续这么做直到到到一个局部最小值。由于给定的初始值不同 则其局部最优解也不同。
梯度下降法的公式为: 其中
为学习率,在这个式子中最重要的是做到同步更新
对于这个式子,就是对 赋值,使得
按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。
如图所示 求导部分就是在某一点进行求导如图中的红色直线,求完导数后,得到的新的 ,
更新后等于
减去一个正数乘以
。
对于学习率。如果它太小了,结果就是只能一点点地挪动,去接近最低点,这样就需要很多步才能到达最低点,导致所花费的时间过多。
如果其太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到发现实际上离最低点越来越远,所以,如果学习率太大,它会导致无法收敛,甚至发散。
那么学习率的选择对于梯度下降法则非常重要。但在梯度下降过程中,不需要更改学习率,原因如下:
随着梯度下降法的进行,导数(斜率)会逐渐减小,如图所示,这会使得 更新的幅度变小。所以随着梯度下降法的运行,移动的幅度会自动变得越来越小,直到最终移动幅度非常小,最后实现收敛到局部极小值。因此不需要额外减小学习率。