常用激活函数小总结

一,什么是激活函数?为什么需要激活函数?

1,单个神经元网络模型

在这里插入图片描述
上图是一张比较简明的单个神经元网络模型,此模型 f f f前的计算公式:
z = ∑ i = 1 n w i × x i + b = w × x + b z=\sum_{i=1}^{n} {w_i×x_i+b}=w×x+b z=i=1nwi×xi+b=w×x+b

这个模型是由防生学得来的,下面有一张单个神经元的图片
在这里插入图片描述

神经元计算机模拟
电信号(大小)数值(大小)
树突和轴突(粗细)W与b
细胞体激活函数

2,激活函数的来源

当所有出入信号经过W与b处理后,将所有的输入信号求和,最终进入细胞,然后在输出,而此时,只有细胞体的过程是未知的,激活函数就是模拟的细胞体的处理函数。
有了激活函数这个神经元的传播才算完整。

二,四种常用的激活函数与理解

1,Sigmod函数(非线性激活函数)

①数学公式:
s i g m o i d ( x ) = 1 1 + e − x sigmoid(x)=\frac {1} {1+e^{-x}} sigmoid(x)=1+ex1
②图像:
在这里插入图片描述
③tensorflow中对应的函数:
tf.nn.sigmoid(x,name=None)
④特点:

  1. 优点:将(-6,6)之间的输入数据压缩到0~1的输出里
  2. 饱和:x越趋近于正或负无穷大,y越趋近于1或0
  3. 缺点:在(-6,6)以外的数据会很大程度的失真

2,Tanh函数(非线性激活函数)

①数学公式:
t a n h ( x ) = 2 s i g m o i d ( 2 x ) − 1 tanh(x)=2sigmoid(2x)-1 tanh(x)=2sigmoid(2x)1
②图像:
在这里插入图片描述
③tensorflow中对应的函数:
tf.nn.tanh(x,name=None)
④特点:

  1. 优点:值域为(-1,1),比sigmoid的值域更广
  2. 缺点:易于饱和,输入极限接近-3与3

3,ReLU函数

①数学公式:
R e L U ( x ) = m a x ( 0 , x ) ReLU(x)=max(0,x) ReLUx=max(0,x)
②图像:
在这里插入图片描述
③tensorflow中对应的函数:
tf.nn.relu(features,name=None)
④特点:

  1. 优点:只处理正信号,函数运算简单
  2. 缺点:副信号被忽略

4,Swish函数

①数学公式:
s w i s h ( x ) = x × s i g m o i d ( β x ) swish(x)=x×sigmoid(\beta x) swishx=x×sigmoidβx
β \beta β x x x的缩放参数
②图像:
在这里插入图片描述
③tensorflow中对应的函数:
tf.nn.swish()
④特点:

  1. 优点:比ReLUctant函数效果好

三,激活函数的学习感想

  • 现在马上2020年了,我才学别人几年前的知识,每天进步一点点,加油
  • 科学家和发明家们从大自然中获得的启示令me震撼,从一个神经元就能渐渐发展成一门如此有用的学科

以上若有错误或不足欢迎批评指出,谢谢!

<think>嗯,用户想了解TCN中常用激活函数。我需要先回忆一下TCN的结构和相关论文中的内容。根据之前的引用,比如引用[2]提到了σ(·)和ReLU(),而引用[3]提到TCN块中使用ReLU激活函数。还有引用[4]中的MS-TCN可能也用了类似的激活函数。首先,TCN通常使用一维卷积,特别是因果卷积,保证时间上的因果关系。激活函数方面,ReLU应该是最常见的,因为它能缓解梯度消失问题,计算效率高。比如在TCN的每个卷积层后接ReLU,这在很多模型中都是标准做法。 然后,可能还有其他激活函数,比如Leaky ReLU,用来解决ReLU的神经元死亡问题。还有引用中提到FC层后有ReLU,比如在输入处理部分。另外,有些变体可能会用GELU,但不确定是否属于“常用”范畴。还需要考虑残差连接中的激活函数位置,通常是在卷积之后,归一化之前还是之后?比如先卷积,再激活,再归一化,或者相反。不过根据引用[3],FC层后是层归一化加ReLU,可能结构是FC→层归一化→ReLU。而TCN块中的结构可能类似,卷积后接激活函数。另外,是否在每一层都使用激活函数?比如每个膨胀卷积单元后都跟ReLU。论文中的描述可能需要确认,但用户问题比较宽泛,所以可以概括主要使用的类型,并举例说明。还要注意是否有论文中提到其他激活函数的应用,比如Sigmoid或Tanh,但这类可能在TCN中较少见,因为ReLU更适合深层网络。不过如果用户问的是“常用”,重点还是ReLU及其变体。 总结一下,TCN常用激活函数包括ReLU、LeakyReLU,可能还有GELU。需要引用相关文献支持,比如引用[2]和[3]中的内容。此外,可以提到激活函数的位置和应用场景,比如在卷积层后或全连接层后使用。</think>### TCN中常用激活函数 在时间卷积网络(Temporal Convolutional Network, TCN)中,激活函数的选择直接影响模型的非线性表达能力和训练效率。以下是TCN中常用激活函数及其应用场景: 1. **ReLU(Rectified Linear Unit)** - **公式**: $f(x) = \max(0, x)$ - **特点**: 计算高效,能缓解梯度消失问题,是TCN中最常见的激活函数。例如,TCN的卷积层后通常接ReLU以增强非线性[^2][^3]。 - **应用场景**: 用于卷积层、全连接层后,如TCN块中的一维因果卷积单元后[^3]。 2. **Leaky ReLU** - **公式**: $f(x) = \begin{cases} x & \text{if } x \geq 0 \\ \alpha x & \text{if } x < 0 \end{cases}$($\alpha$为小常数,如0.01) - **特点**: 解决ReLU的“神经元死亡”问题,适用于需要更稳定梯度的场景。 - **应用场景**: 部分TCN变体在深层网络中替换ReLU以提升鲁棒性。 3. **GELU(Gaussian Error Linear Unit)** - **公式**: $f(x) = x \cdot \Phi(x)$($\Phi(x)$为标准正态分布的累积分布函数) - **特点**: 通过概率建模引入非线性,适合复杂时序依赖建模。 - **应用场景**: 部分改进型TCN(如结合自适应注意力的模型)可能采用[^3]。 4. **Sigmoid/Tanh** - **特点**: 在TCN中使用较少,因饱和区梯度消失问题明显,但可能用于特定输出层(如二分类任务)。 --- ### 激活函数在TCN中的典型结构示例 以引用[3]中的TCN块为例,其结构如下: 1. 输入经过一维因果膨胀卷积。 2. 卷积输出通过**ReLU激活函数**。 3. 应用层归一化(LayerNorm)。 4. 重复堆叠N个此类块以构建深层网络。 --- ### 总结 - **最常用**: ReLU及其变体(如Leaky ReLU)是TCN的核心激活函数,因其平衡了效率和性能[^2][^3]。 - **扩展应用**: 改进模型中可能尝试GELU等新型函数,但需结合具体任务验证效果。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值