深度学习基础入门
1. 深度学习概述
随着机器学习问题变得越来越复杂,参数空间的地形也变得更加多样化,通常是非凸的,存在许多局部最小值。简单的梯度下降方法可能难以学习特定的函数。因此,人们将多层神经元连续堆叠,并使用反向传播进行联合训练。这样的层网络可以学习多个非线性函数,以拟合训练数据集。深度学习指的是多个神经网络层按顺序连接。
“深度学习”这个术语有些模糊。在很多情况下,它是神经网络的一个新名称,或者指具有多个连续(深层)层的神经网络。然而,区分深层网络和浅层网络的层数是相对的。一般来说,深层网络仍然是神经网络(通过反向传播进行训练,学习输入的分层抽象,并使用基于梯度的学习进行优化),但通常具有更多的层。深度学习的显著特点是它能应用于传统方法和小型神经网络难以解决的问题。
神经网络的灵活性使其非常有吸引力。由于反向传播和基于梯度的优化方法简单有效,神经网络被应用于许多类型的问题。接下来,我们将介绍影响深度神经网络(DNN)架构设计和模型训练的其他方法和注意事项,重点关注激活函数、损失函数、优化方法和正则化方法。
2. 激活函数
在计算输出层的梯度时,阶跃函数在计算梯度方面并不实用,因为其导数处处为 0,这使得梯度下降方法失效。因此,我们需要使用在反向传播过程中能提供有意义导数的非线性激活函数。以下是一些常见的激活函数:
2.1 Sigmoid 函数
Sigmoid 函数的表达式为:
[
\sigma(x) = \frac{1}{1 + e^{-x}}
]
它是一个连续的压缩函数,将输出限制在 (0, 1) 范围内。它类似于阶跃函数,但具有平滑连续的导
超级会员免费看
订阅专栏 解锁全文
36万+

被折叠的 条评论
为什么被折叠?



