本篇主要解决三个问题
1、tf.train.AdamOptimizer是什么?
2、什么是beta1_power和beta2_power?
3、tensorflow保存的模型中同一权重有多个表示:
/adam1/adam,究竟哪个是真正的权重,分别代表什么意思?
##################
1、tf.train.AdamOptimizer是什么?
此函数是Adam优化算法:是一个寻找全局最优点的优化算法,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。。相比于基础SGD算法,1、不易于陷于局部有点 2、速度更快。
实现了 AdamOptimizer 算法的优化器,它综合了 Momentum 和 RMSProp 方法,对每个参数保留一个学习率与一个根据过去梯度信息求得的指数衰减均值。
代码实现:
train_step = tf.train.GradientDescentOptimizer(learning_rate).