深度学习（Deep Learning）读书思考四：模型训练优化

最新推荐文章于 2025-11-17 15:01:24 发布

原创

最新推荐文章于 2025-11-17 15:01:24 发布 · 1.1w 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #模型训练

本文探讨了深度学习模型的优化挑战，包括病态条件数、局部最小值、鞍点等问题，以及优化算法如SGD、Momentum、Nesterov Momentum和自适应学习率算法。此外，还介绍了批量正则化和其他优化策略，帮助解决梯度爆炸、长依赖问题等优化难题。

概述

机器学习应用包括模型构建、求解和评估，对于深度模型而言也是类似，根据之前的介绍可以构建自己的深度神经网络结构。相对于一般的优化问题，深度模型更难优化，本节主要介绍深度学习模型优化挑战、优化算法以及优化策略等。

深度学习模型优化挑战

深度学习优化算法

深度学习中的特殊策略

另外，关于更多数值优化技术可以参考。数值优化技术

深度学习优化挑战

机器学习优化问题

深度学习模型是机器学习模型中一类一种，而一般机器学习优化问题相对于纯优化问题，主要有以下不同：

经验风险最小化

机器学习中优化的终极目标是模型参数能够拟合全部数据，即

m i n J (θ) = E (x, y) p (d a t a) L (f (x; θ), y)

$min \ \ J(\theta)=E_{(x,y)~p(data)}L(f(x;\theta),y)$ 然而在大多数情况下，无法获取全部的训练数据或者不知道样本x的分布，因此

机器学习优化问题转化为优化问题采用最简单的思路就是，让模型去更好拟合训练数据。

即

m i n J (θ) = E (x, y) p ˜ (d a t a) L (f (x; θ), y)

$min \ \ J(\theta)=E_{(x,y)~\widetilde p(data)}L(f(x;\theta),y)$ 该过程也称之为经验风险最小化。

替代损失函数

有时为了更好的进行模型优化，常常不直接对损失建模，而是采用更容易优化的目标函数进行替代，例如对于0-1损失问题，不是直接采用最小化0-1损失，而是采用sigmoid函数。

minibatch优化算法

minibatch算法是指在优化 $J(\theta)$ 的过程中，每次随机选择m个训练样本进行优化，直到达到最优。
该方法在机器学习模型优化中常常被采用，主要原因有：

采用批量或者全量样本进行优化，能够得到准确的梯度，但不是线性关系。例如每次训练时喂入10000个样本和每次100个样本，虽然有100倍关系，但是准确度只能提升大概10倍左右。

采用minibatch方法可以更方便并行，处理更大的样本集合。

能够起到正则化的左右

另外需要注意的是：minibatch算法最好要求每次喂入算法的样本都是随机选择的。

深度学习模型的挑战

病态条件数

Ill-Conditioning 主要指训练过程中，目标函数值发生抖动，而不是一直下降。通过将目标函数进行二次泰勒展开可以看到学习率对梯度的影响，即每次梯度更新受以下因素影响

1 2 ϵ 2 g T H g - ϵ g

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。