训练神经网络中最基本的三个概念：Epoch, Batch, Iteration

最新推荐文章于 2024-03-19 13:35:55 发布

转载最新推荐文章于 2024-03-19 13:35:55 发布 · 301 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://zhuanlan.zhihu.com/p/29409502

文章标签：

#训练神经网络中最基本的三个概念：Epoch # Batch #

深度学习卷积网络架构同时被 2 个专栏收录

8 篇文章

订阅专栏

卷积神经网络

5 篇文章

订阅专栏

本文深入解析了梯度下降算法中BatchSize的作用及换算关系，通过CIFAR10数据集示例，详细阐述了不同BatchSize对模型训练的影响，包括每个Epoch的Batch个数、Iteration次数及模型权重更新频率。

2. 换算关系

$numer of Baches=\frac{Trainning Set Size }{Batch Size}$

实际上，梯度下降的几种方式的根本区别就在于上面公式中的 Batch Size不同。

*注：上表中 Mini-Batch 的 Batch 个数为 N / B + 1 是针对未整除的情况。整除则是 N / B。

3. 示例

CIFAR10 数据集有 50000 张训练图片，10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。

每个 Epoch 要训练的图片数量： 50000
训练集具有的 Batch 个数： $\frac{50000}{256}=195+1=196$
每个 Epoch 需要完成的 Batch 个数： 196
每个 Epoch 具有的 Iteration 个数： 196
每个 Epoch 中发生模型权重更新的次数： 196
训练 10代后，模型权重更新的次数： $196*10=1960$
不同代的训练，其实用的是同一个训练集的数据。第 1 代和第10代虽然用的都是训练集的五万张图片，但是对模型的权重更新值却是完全不同的。因为不同代的模型处于代价函数空间上的不同位置，模型的训练代越靠后，越接近谷底，其代价越小。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。