循环神经网络(RNN)与迁移学习的深入解析
1. 长短期记忆网络(LSTM)架构与原理
1.1 LSTM 架构概述
LSTM 主要由一个细胞(cell)、输入门(Input Gate)、输出门(Output Gate)和遗忘门(Forget Gate)组成。这种独特的结构使其在处理时间序列数据的分类和预测任务中表现出色,例如手写识别和语音识别等应用。与普通 RNN 相比,LSTM 更擅长处理不同时长的滞后问题。
1.2 LSTM 的工作步骤
- 遗忘门决策 :LSTM 首先要决定从细胞中丢弃哪些信息,这由遗忘层(Forget Layer)完成。遗忘层使用 sigmoid 函数评估隐藏状态和当前输入,以决定是否保留或丢弃信息。例如,在预测下一个单词时,细胞可能存储了名词的性别信息,当主语改变时,就需要通过遗忘门丢弃之前的性别信息。
- 输入门决策 :接下来,要决定细胞应该存储哪些信息。这分为两个部分,首先通过 sigmoid 函数决定哪些值需要更新,然后使用 tanh 层创建候选向量。
- 输出门决策 :最后,细胞决定输出什么。首先通过 sigmoid 函数决定细胞的哪一部分要输出,然后将值压缩到 -1 到 1 之间,并乘以 sigmoid 门的输出。在语言模型任务中,可以决定输出关于主语是复数还是单数的信息,以指导下一个动词的变位。
1.3 门控循环单元(GRUs)
GRUs 的工作方式与 LSTM 类似,但参数更少,因为它没有输出门
超级会员免费看
订阅专栏 解锁全文
3258

被折叠的 条评论
为什么被折叠?



