结合网上的资料算是弄明白了一些梯度下降法背后的原理,有时间再写一个全面理解的版本,这里只放别人的链接了,从一阶泰勒展开的角度理解是我目前掌握的,其他角度有待学习。
以下是同济高等数据关于梯度这一节的内容
当时最难理解的就是——梯度方向是函数变化率最大的方向、也是函数增加/减小最大的方向,想想一元函数,导数大于0是单调递增的,导数小于0是单调递减的,暂且把这个结论推广到多元函数把,暂时这么理解了。
关于梯度的由来,这篇文章讲的很好:https://zhuanlan.zhihu.com/p/24913912,但是没有解释梯度方向函数会增加或减小
关于梯度下降法,这篇文章提供了泰勒展开的视角,理解起来比较容易:https://blog.youkuaiyun.com/red_stone1/article/details/80212814