在学习梯度下降优化算法时候,遇到了一些困难,想必大家都阅读过这篇文章,An overview of gradient descent optimization algorithms。刚读到momentum时候,就产生了一些疑惑,特此记录下来。下面是我在知乎上的提问,等待各位大神能够给予一些解答。地址:https://www.zhihu.com/question/62829020

关于梯度下降优化算法Momentum有几个问题想不太明白。
1. 冲量的初始值如何设定?下面公式中v的初始值是为0么?

2. 为什么tensorflow中的公式和一般论文中给出的有些区别。
这是tensorflow中的公式。

这是一般论文中提及的公式。

貌似学习率的位置不一样,为什么会有这种区别?
3. 关于算法本身,下面图中为什么是y方向的梯度要更大呢?y方向不是等高的么?那么梯度应该小啊?x方向梯度才会很大吧?求解释。。。。
