梯度下降
以使用平方损失为例,我们在计算损失时,单个样本的损失计算如下
上述函数丢了一个平方,不改了,太麻烦了,浪费我时间,大家知道就好
单个样本计算损失时,预测值与真值之间的差距可能太大,导致损失也过大,这里也用到了求n个样本损失的均值
随机梯度下降
上述带来的一系列弊端
1、由于计算损失之前遍历所有样本然后计算损失均值,这就导致了执行效率可能会非常的低
2、可能陷入局部最优
引入小批量随机梯度下降
在每次计算更新时,从所有样本中随机取出一小组样本进行均值损失计算,这样不仅效率上去了,还有可能提前找到最优解,在一定程度上也避免了局部最优解