GAN论文:https://arxiv.org/abs/1406.2661
sigmoid
sigmoid/tanh作为映射函数,很好的把输出限制到目标区间,但是随之带来的问题是反向传播的收敛问题——梯度消失。
f ( x ) = s i g m o i d ( x ) f(x) = sigmoid(x) f(x)=sigmoid(x)
∇ f ( x ) = s i g m o i d ( x ) [ 1 − s i g m o i d ( x ) ] \nabla f(x) = sigmoid(x)[1-sigmoid(x)] ∇f(x)=sigmoid(x)[1−sigmoid(x)]
∇ f ( x ) = f ( x ) [ 1 − f ( x ) ] \nabla f(x) =f(x)[1-f(x)] ∇f(x)=f(x)[1−f(x)]
GAN
以生成对抗网络为例。
在论文中,对算法的伪代码描述如下:

如果在 G G G和 D D D中使用sigmoid激活函数,那在训练的收敛会出现问题。
以辨别器 D D D为例:
辨别器 D D D:
假设 D D D的最后一层激活函数为 s i g m o i d sigmoid sigmoid。未经过激活时的值为 D u a c t D_{uact} Duact,即
D a c t = s i g m o i d ( D u a c t ) D_{act}=sigmoid(D_{uact}) Dact=sigmoid(Duact

探讨在生成对抗网络(GAN)中使用Sigmoid激活函数导致的梯度消失问题,及其对训练过程的影响,特别是在生成器和辨别器能力不平衡时的表现。
最低0.47元/天 解锁文章
6575

被折叠的 条评论
为什么被折叠?



