在数据很庞大的时候(在机器学习深度学习中,几乎任何时候都是),我们需要使用 epochs,batch size,iterations(迭代)这些术语,在这种情况下,一次性将数据输入计算机是不可能的。因此,为了解决这个问题,我们需要把数据分成小块,一块一块的传递给计算机,在每一步的末端更新神经网络的权重,拟合给定的数据。
0、深度学习的优化算法,梯度下降。
梯度的含义是斜率或者斜坡的倾斜度。 下降的含义是代价函数的下降。
算法是迭代的,意思是需要多次使用算法获取结果,以得到最优化结果。
梯度下降的迭代性质能使欠拟合的图示演化以获得对数据的较佳拟合。
梯度下降中有一个称为学习率的参量。如上图左所示,刚开始学习率更大,因此下降步长更大。随着点下降,学习率变得越来越小,从而下降步长也变小。同时,代价函数也在减小,或者说代价在减小,有时候也称为损失函数或者损失,两者都是一样的。(损失/代价的减小是一件好事)
每次的参数更新有两种方式。
第一种,遍历全部数据集算一次损失函数ÿ