LSTM输入层、隐含层及输出层参数

LSTM网络的输入层要求三维结构,包括batch_size,input_dim和time_step。隐含层参数为n_hidden,而输出层涉及n_hidden和output_dim,这些参数定义了模型的架构和信息处理方式。
部署运行你感兴趣的模型镜像

LSTM
输入层要求的维度是三维的,其中包含三个参数:batch_size, input_dim和time_step。
隐含层有一个参数:n_hidden。
输出层有两个参数:n_hidden和output_dim。

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

### LSTM网络架构图 LSTM(长短期记忆网络)是一种特殊的RNN,能够学习长期依赖关系。其核心在于细胞状态和三个门控机制:遗忘门、输入门和输出门[^1]。 #### 输入结构 LSTM接收的输入通常表示为三元组 `(seq_len, batch, input_size)` 当 `batch_first=True` 时,则变为 `(batch, seq_len, input_size)` 。这里 `seq_len` 是序列长度;`batch` 表示批次大小;`input_size` 则指定了每个时间步的特征数量[^2]。 #### 隐藏 隐藏的数量由参数 `num_layers` 控制,默认情况下只有一个隐藏。如果设置了多比如两,则意味着数据会在两个连续的LSTM单元之间传递。每都有自己的权重矩阵,并且这些权重在整个训练过程中被共享[^3]。 #### 输出结构 对于单向LSTM而言,最终的输出形状同样取决于是否将批量尺寸放在第一位 (`batch_first`) ,默认情况下的输出形式为 `(seq_len, batch, hidden_size * num_directions)` 或者当 `batch_first=True` 时为 `(batch, seq_len, hidden_size * num_directions)` 。这里的 `hidden_size` 就是指定的隐含层节点数目,而 `num_directions` 可能是1(如果是单向的话),或者是2(若是双向LSTM)。值得注意的是,在双向模式下,不仅前向传播会产生一组隐藏状态,反向也会产生另一组独立的状态,所以总的输出宽度翻倍。 ```mermaid graph LR; A[Input] --> B{LSTM Cell}; B --> C[Hidden State]; B --> D[Cell State]; E[(Output)] <-- C; F[Time Step t-1 Hidden State] -.->|Feedback Loop|B; G[Time Step t+1 Input] --> H{Next LSTM Cell}; H --> I[Next Hidden State]; J[Previous Time Steps' Information Flow Through Cell States]-.->|Long-Term Memory Pathway|D; ``` 此Mermaid图表展示了基本的LSTM工作流程,包括输入如何进入LSTM单元并影响当前时刻的隐藏状态和细胞状态,同时也体现了来自先前时间步骤的信息流是如何贯穿整个细胞状态来保持长时间的记忆路径。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值