对LSTM层的参数units 的理解

model = Sequential()
model.add(LSTM(32, batch_input_shape=(None, 10, 64)))

以上LSTM的第一个参数units=32,指的并不是一层LSTM有32个LSTM单元。
在很多LSTM的框图中,我们都会将LSTM单元按照时间顺序排列开来,句子的长度是多少我们就会画出多少个LSTM单元。这也是给我们带来误解的地方。实际上一层LSTM的每个‘单元’是共享参数的,所以并没有所谓的那么多个LSTM单元,我们可以理解为它们其实是同一个LSTM单元,只有一个单元的参数量。

这里我们设置的units=32的大小,其实代表得是LSTM单元内的隐藏层的尺寸。

对于LSTM而言,每个单元有3个门,对应了4个激活函数(3个sigmoid,一个tanh)。也就是说有4个神经元数量为32的前馈网络层。

 

对于LSTM的计算过程,我们这里举一个简单的例子:

假如我们样本的每一句话包含5个单词,每个单词用16维的词向量表示。对于LSTM(units=32),我们可以把LSTM内部的计算过程计算过程简化为:

Y=X1×16W16×32,这里X为(1,16)的向量,W为(16,32)的矩阵,所以运用矩阵乘法,将16维的X转化为32维的向量。

如下图所示:

我们可以简单的将LSTM内部的各种计算想象成全连接的之间的矩阵计算。

所以units代表的不是一层单元的个数,而是单元内部隐藏层的大小。

 

### LSTM的输入与输出机制 #### 输入结构 LSTM是一种特殊的循环神经网络(Recurrent Neural Network, RNN),其设计目的是解决传统RNN在处理长时间序列时存在的梯度消失或爆炸问题。LSTM通过引入门控机制来控制信息流,从而能够有效捕捉长期依赖关系。 对于LSTM而言,其输入通常是一个三维张量,形状为 `(样本数, 时间步长, 特征维度)`。具体来说: - **样本数**表示数据集中有多少条独立的时间序列。 - **时间步长**指每一条时间序列包含多少个时间点的数据。 - **特征维度**则代表每个时间点上的特征向量长度[^1]。 例如,在自然语言处理任务中,如果我们将一句话看作是一组单词组成的序列,则这里的“时间步长”就是句子中的词数量,“特征维度”可以是每个词经过嵌入后的向量大小。 #### 输出形式 LSTM 的输出取决于具体的配置方式以及应用场景: 1. 对于单 LSTM 来说,它会针对每一个时间步返回隐藏状态 \(h_t\) 和细胞状态 \(c_t\) 。其中隐藏状态作为当前时刻该节点对外界表达的信息载体;而细胞状态内部存储着更深次的历史记忆信息[^2]。 2. 当构建深 LSTM 结构 (即堆叠多个 LSTM ) 时,前一的所有时间步输出将被送至下一作为新输入继续传播计算直到最后一结束为止。 3. 实际应用过程中往往还需要附加额外操作比如加入全连接(FC),以便最终得到符合需求的目标值——无论是连续型变量还是离散类别标签等不同类型的任务目标都可以通过调整 FC 后面激活函数的形式达成目的。 4. 在某些特定情况下如仅关心整个序列最后一步的状态而非中间过程变化情况的话可以直接取最后一个时间步对应的 h_T 或 c_T 进行后续处理而不是保留全部历史记录下来。 5. 另外值得注意的是当涉及到多维或多模态数据源联合建模的时候可能还会存在更加复杂的组合模式比如说同时考虑视觉图像帧加上音频片段共同作用影响未来趋势走向等问题此时就需要灵活运用不同类型的编码解码器架构配合起来完成相应功能实现[^3]。 ```python import tensorflow as tf model = tf.keras.Sequential([ tf.keras.layers.LSTM(units=64, input_shape=(None, feature_dim), return_sequences=True), tf.keras.layers.Dense(output_size, activation='softmax') ]) ``` 上述代码展示了一个简单的基于 TensorFlow/Keras 构造出来的带有单 LSTM 单元并设置 `return_sequences` 参数为 True 表明希望获取每一时刻 t 所产生的隐含状态 ht 给予下一个 Dense Layer 做进一步分类决策使用的例子。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值