一直以为:输入一张数据,就前向传播,然后反向传播更新权重。(X)
正确理解:
梯度下降:损失函数定义在所有样本上。每次都是在所有样本上作梯度下降。



随机梯度下降(SGD): 每次随机选择一个样本,损失函数定义在一个样本上。每次都是在一个样本上作梯度下降。
梯度下降:损失函数定义在所有样本上。每次都是在所有样本上作梯度下降。



随机梯度下降(SGD): 每次随机选择一个样本,损失函数定义在一个样本上。每次都是在一个样本上作梯度下降。
3254
429
5万+

被折叠的 条评论
为什么被折叠?