神经网络架构:LSTM、CNN及其变体详解
1. LSTM机制
LSTM(长短期记忆网络)的记忆单元$c_t$中包含两个门,与GRU(门控循环单元)机制类似。输入门$\Gamma_t^i$通过候选记忆$\tilde{c} t$调节要纳入的新数据量,遗忘门$\Gamma_t^f$调节在当前计算中对旧记忆单元的保留程度。通过元素级向量乘法$\odot$,可得到更新方程:
$c_t = \Gamma_t^f \odot c {t - 1} + \Gamma_t^i \odot \tilde{c}_t$
最后,使用tanh激活函数计算隐藏层输出$h_t \in R^{n \times j}$:
$h_t = \Gamma_t^o \odot \tanh(c_t)$
将上述输出通过softmax层,可得到当前块的目标输出$y_t$。从这些方程可以看出,对于任何时间戳$t$,记忆单元知道要从先前状态中遗忘什么(即$\Gamma_t^f \odot c_{t - 1}$),以及要从当前时间戳中考虑什么(即$\Gamma_t^i \odot \tilde{c}_t$)。
2. 卷积神经网络(CNNs)概述
CNNs(卷积神经网络)是一种特殊的神经网络拓扑结构,融合了生物学、数学和计算机科学。受人类视觉系统启发,CNNs在2012年的ImageNet挑战赛中崭露头角。它主要用于处理网格状拓扑数据,许多与图像相关的挑战都被成功转化为序列数据处理问题。这些数据可以是一维网格上的时间序列数据,也可以是二维网格上像素排列的图像。在深度学习领域近十年的发展中,CNN在几乎所有可能的领域都引发了关注,包括图像分析、目标识别、
超级会员免费看
订阅专栏 解锁全文
706

被折叠的 条评论
为什么被折叠?



