什么是激励函数(Activation Functions)

激励函数在深度学习中扮演关键角色,解决非线性问题。常见的如sigmoid和relu,前者将实数压缩至0-1区间,常用于分类概率,后者在卷积层常用。自定义激励函数需确保可微分,以支持误差反向传播。在深层网络中,选择合适的激励函数能避免梯度消失或爆炸问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简而言之,激励函数是为了解决我们日常生活中无法用线性方程所概括的问题

 

将人工神经网络转化为数学模型,可以看作是y=Wx,y是输出值,x是输入值,W就是y到x的一种映射关系(为一个参数)

那么,对于线性问题,W是很容易计算出来的,而且它一般是一个常数值,对于非线性问题,在二维坐标系上,函数图像并不是一条直线,而是一条曲线,此时求出W是一个非常难的问题,所以引入激励函数,令y=AF(Wx),其中,AF()为激励函数,即一些非线性方程(relu、sigmoid、tanh等)

sigmoid,tanh比较常见于全连接层,relu常见于卷积层

比如,sigmoid的函数表达式如下

其中 z 是一个线性组合,比如 z 可以等于:b + w1*x1 + w2*x2

通过代入很大的正数或很小的负数到g(z)函数中可知,其结果趋近于0或1

因此,sigmoid函数g(z)的图形表示如下( 横轴表示定义域,纵轴表示值域 ):

也就是说,sigmoid函数的功能是相当于把一个实数压缩至0到1之间

当z是非常大的正数时,g(z)会趋近于1,而z是非常小的负数时,则g(z)会趋近于0

压缩至0到1有何用处呢?用处是这样一来便可以把激活函数看作一种“分类的概率”,比如激活函数的输出为0.9的话便可以解释为90%的概率为正样本,如此达到分类的目的

激励函数也是可自己创建的,根据实际问题,但是要保证创建的激励函数是可微分的,因为在误差反向传播时,只有这些可微分的激励函数才能将误差传递回去。

在网络层数不多时,可自由选择激励函数;在网络层数较多时,则需要考虑选择哪种激励函数,因为当网络较深时,会涉及到梯度爆炸以及梯度消失的问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PL_涵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值