一、梯度下降 (当模型没有显示解时)
选择学习率时,不能太小(每次走的步长有限,需要走很多步骤),也不能太大
二、小批量随机梯度下降
选择批量大小时,不能太大,也不能太小:
1.太小:每次计算量太小,不适合并行来最大利用计算资源
2.太大:内存消耗增加,浪费计算
三、总结
一、梯度下降 (当模型没有显示解时)
选择学习率时,不能太小(每次走的步长有限,需要走很多步骤),也不能太大
二、小批量随机梯度下降
选择批量大小时,不能太大,也不能太小:
1.太小:每次计算量太小,不适合并行来最大利用计算资源
2.太大:内存消耗增加,浪费计算
三、总结