87、深度学习技术全解析:从基础到对抗训练

深度学习技术全解析:从基础到对抗训练

1. 非线性激活函数

传统神经网络(NNs)由于在网络训练阶段存在数值问题,大多局限于三层。这些问题主要源于多层反向传播过程中的梯度消失,而试图避免梯度消失又会导致梯度发散。在梯度消失和发散之间取得平衡是一项艰巨的任务,这使得神经网络的层数在几十年内都被限制在三层,也限制了神经网络在实际场景中的应用。

常见的激活函数有Sigmoid和tanh函数,其表达式分别为:
- Sigmoid函数:$\varphi_{\sigma}(x) = \frac{1}{1 + e^{-x}}$
- tanh函数:$\varphi_{t}(x) = \tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$

Sigmoid函数将实数变量$x$映射到$0 \leq \sigma(x) \leq 1$的范围,可解释为给定事件的概率,但非零平均值会在网络训练过程中产生偏差。tanh函数可看作是Sigmoid函数的缩放零均值版本,即$\varphi_{t}(x) = 2\varphi_{\sigma}(2x) - 1$。然而,这两个函数在$|x|$较大时存在强饱和区域,导数极低,会导致梯度消失,减慢甚至停止深度网络的训练。

为避免这一问题,引入了ReLU函数,定义为$\varphi_{r}(x) = \max(0, x)$。它不仅简单,还能简化梯度计算,避免正部分的饱和,加速训练过程。如今,ReLU是应用最广泛的激活函数,不过tanh也是不错的选择,而Sigmoid函数则用于需要$[0,1]$区间类似概率输出的场景。

2. 网络权重初始化

合适的权

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值