- 训练模型时应更多的关注验证集的损失与正确率,它能更好地反映模型模拟真实世界的性能。从而避免模型的过拟合。
2. GPU 擅长并行处理大量数据。更大的 Batch Size 可以让 GPU 同时处理更多样本,充分利用其多核计算能力,减少计算资源闲置。且GPU 内存带宽有限。Batch Size 增大后,数据吞吐量提高,更充分地利用了内存带宽。
3. Batch Size并不是越大越好。首先有硬件方面的限制,其次小容量 Batch Size 引入的随机梯度噪声有助于跳出局部最优解,增强泛化能力。
4.复用权重是神经网络防止过拟合,增强数据相关性的优秀方法,可以在尝试自己设计神经网络的时候自行创造一个贴合自己需要的“神经元”(如:卷积)
1835

被折叠的 条评论
为什么被折叠?



