深度学习与神经网络学习笔记（五）

原创于 2017-10-24 10:24:00 发布 · 438 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络

神经网络和机器学习专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了三种常见的激活函数：sigmoid函数、Tanh函数和ReLU函数。分别阐述了它们的特点、应用场景及导数计算方法，并解释了为何需要使用非线性激活函数。

七、激活函数的使用

通过之前的学习我们都了解到了激活函数的作用，现在我们将会讲解一下激活函数在不同的神经网络中的应用：

1、首先是sigmoid 函数：

a = 1 1 + e - z

$a=\frac{1}{1+e^{-z}}$

它的图像可以表示为：

这里写图片描述

但是这个激活函数多使用在二分分类输出的神经网络，因为需要寻找1和0值，所以在一般的神经网络中我们很少使用这个激活函数。对应的导数为：

g' (z) = a (1 - a)

$g'(z)=a(1-a)$

这为后面的计算节省了很多时间。

2、然后是Tanh函数：

a = e z - e - z e z + e - z

$a=\frac{e^z-e^{-z}}{e^z+e^{-z}}$

它的图像是：

这里写图片描述

这个激活函数相较于上面的更加适用于现在常用的神经网络中，它也称为双切正切函数，取值范围为[-1,1]。tanh在特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果。与 sigmoid 的区别是，tanh 的均值是0，因此实际应用中 tanh 会比 sigmoid 更好，然而，tanh一样具有软饱和性，从而造成梯度消失。它的导数为：

g' (z) = 1 - a 2

$g'(z)=1-a^2$

3、接下来是ReLU函数：

a = m a x (0, z)

$a= max(0,z)$

它的图像为：

这里写图片描述

我们可以看出，在函数中，当 $z<0$ 时, $a$ 的值会持续衡为0，再加上在第一象限的区域里函数的斜率（导数）一直保持为1，因此在寻找最小值时通常要比寻常的速度要快的多，唯一不足的地方就是当 $z=0$ 时，函数的导数是没有意义的，所以我们可以单独设置其为1或者0。当然我们也可以再做一点饱和性的设置，我们可能会对这个函数做一个很小的泄露：

这里写图片描述

而它的函数可以表示为： $a=max(0.01z,z)$ ，这个的直观表达就是有一个很小的缓和区域，但是具体的使用中并没有看出有太大的差别，因此我们还是使用上面的激活函数居多。

上述三个激活函数都是比较常用的激活函数，当然也有很多其他的激活函数，这里吴老大没有讲，所以我也就不提了，具体可以自己百度一下更加清楚。

这里再提一下，为什么我们要一直采用这种非线性的激活函数来计算每一个神经元的过程？假设我们不使用非线性的激活函数的话，我们可能会得到一个结果就是每一个神经元的值与下一个神经元的值都是线性的关系，那么到最后我们将会输出的 $\hat y$ 和输入值 $x$ 成线性的关系，这样的话我们神经网络无论多少层都相当于只有一层，最终得出的 $(w,b)$ 可以用一个值表示，这样就会失去我们神经网络的隐层的意义，最终就只有输入层和输出层。所以我们唯一能够使用线性的激活函数是在输出层的时候。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。