深度学习中的epochs，batch_size，iterations理解

最新推荐文章于 2024-07-17 10:56:49 发布

原创

最新推荐文章于 2024-07-17 10:56:49 发布 · 8.6k 阅读

·

62

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

在数据很庞大的时候（在机器学习深度学习中，几乎任何时候都是），我们需要使用 epochs，batch size，iterations（迭代）这些术语，在这种情况下，一次性将数据输入计算机是不可能的。因此，为了解决这个问题，我们需要把数据分成小块，一块一块的传递给计算机，在每一步的末端更新神经网络的权重，拟合给定的数据。

0、深度学习的优化算法，梯度下降。

梯度的含义是斜率或者斜坡的倾斜度。下降的含义是代价函数的下降。

算法是迭代的，意思是需要多次使用算法获取结果，以得到最优化结果。

梯度下降的迭代性质能使欠拟合的图示演化以获得对数据的较佳拟合。

梯度下降中有一个称为学习率的参量。如上图左所示，刚开始学习率更大，因此下降步长更大。随着点下降，学习率变得越来越小，从而下降步长也变小。同时，代价函数也在减小，或者说代价在减小，有时候也称为损失函数或者损失，两者都是一样的。（损失/代价的减小是一件好事）

每次的参数更新有两种方式。

第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。

另一种，每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降，stochastic gradient descent。这个方法速度比较快，但是收敛性能不太好，可

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。