随即梯度下降和梯度下降的主要区别是
剃度下降方法在参数训练时将所有数据训练一遍以后才更新各个新的梯度值
因此虽然更新“精准”,但是对计算时间和能力要求高
随机剃度下降的思路是在每次训练单个数据是进行一次梯度更新,而且选取的训练是随机的
这样做避免了过大的运算,但是导致训练噪声
所以是否可以考虑对部分数据进行训练而不是单个或全部呢,假设有10个训练数据,如果我们把他们分成2组进行梯度下降训练
而且每次这两组都是随机分成的,这样是否会得到一个折衷的结果呢?
我会针对这个问题自己去找找资料,如果有大牛懂的话希望给新手一些指点哈~