0. 摘要 机器学习与深度学习中常用到梯度下降(Vanilla Gradient Descent)优化方法及其改进的变种(Improved Variants),不同专业书与教程中均有所涉及,但缺乏系统性与完整性.本文在参阅相关论文与教程的基础上,通过对比总结,系统性归纳并说明其各自特点,同时结合个人理解与实际使用情况,给出一定的补充,以便交流学习. 1. 梯度下降理论基础 对于机器学习与深度学习问题,虽然求解对象多样,但本质上都是优化目标函数(Objective Function)