CS231n简介
详见 CS231n课程笔记1:Introduction。
注:斜体字用于注明作者自己的思考,正确性未经过验证,欢迎指教。
优化迭代算法
写在前面:Karpathy推荐Adam作为默认算法,如果full batch的话,在去除所有噪声的情况下尝试L-BFGS(一种二阶优化算法,详情请自行搜索)。关于优化算法的实现请参考CS231n作业笔记2.3:优化算法Momentum, RMSProp, Adam和CS231n作业笔记1.4:随机梯度下降(SGD)。
1. SGD (Simple Gradient Descent Update Stochastic gradient descent)
最简单原始的迭代算法,就是减去learning_rate*梯度值。
![]()
Stochastic的名字好像是对比于全训练集训练方法的,每次只使用训练集中的一小部分(batch),具体请参照Optimization: Stochast