用下面的损失函数来作为例子:
参数更新公式为:
1. Batch GD
对于 Batch GD, m 是整个 batch 大小, 它用整个集合的数据来更新参数。
2. Mini-batch GD
整个 batch 被分为几个小的 mini-batches, m 是 mini-batch 的大小。
3. SGD/Mini-batch SGD
m=1,在所有数据上迭代直到收敛。这其实是 batch size 为1的 Mini-batch GD 的特殊情况。
4. Online GD
m=1,但是每一个数据用完后就被丢弃不再使用。