深度学习--递归神经网络--LSTM/GRU算法理论

最新推荐文章于 2025-04-30 14:03:16 发布

我是疯子喽

最新推荐文章于 2025-04-30 14:03:16 发布

阅读量2.4k

点赞数 1

文章标签： rnn lstm 神经网络深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_35733800/article/details/105650025

版权

本文详细介绍了递归神经网络（RNN）的基础，包括其与前馈神经网络的区别，不同架构类别，正向与反向传播，以及梯度消失和爆炸问题。特别地，深入探讨了LSTM（长短期记忆）和GRU（门控循环单元）的结构和工作原理，阐述了它们如何解决RNN的记忆问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一递归神经网络基础

1 递归神经网络与前馈神经网络的联系与区别

1）网络结构

2）输入角度

3）输出角度

2 递归神经网络的架构类别

第一种架构类别：从输入和输出的序列长度角度

1）N：N（最为常见的架构）

2）N：M（Seq2Seq或者Encoder-Decoder模型）

3）1：N（处理如图片标注问题，x是图像特征，y是一个句子）

4）N：1（处理如序列分类问题（情感倾向分析））

第二种架构类别：从隐层的传输方向角度

1）单向递归神经网络（以N：N为例）

2）双向递归神经网络（以N：N为例）

3 递归神经网络的正向与反向传播（以N：N为例）

1）正向传播（同FP过程）

2）反向传播（同BP过程，这里称为BPTT）

4 递归神经网络的梯度消失与梯度爆炸问题

1）梯度消失问题（长时依赖造成记忆消失）

2）梯度爆炸问题（长时依赖造成记忆紊乱）

二递归神经网络隐层结构

1 LSTM（Long Short Term Memory，长短时序记忆）

1）三个门（信息遗忘门、增加门、输出门）

2）正向传播

1）peephole connections（窥视孔连接）

2）耦合信息遗忘门与增加门

3 GRU（Gated Recurretn Unit，门内循环单元）

1）两个门（信息更新门、输出门）

2）正向传播

一递归神经网络基础

1 递归神经网络与前馈神经网络的联系与区别

1）网络结构

BP、CNN等是前馈神经网络，递归神经网络是反馈神经网络

2）输入角度

BP、CNN等前馈神经网络中输入是独立的没有上下联系的，递归神经网络中是有上下联系的序列化输入

3）输出角度

BP、CNN等前馈神经网络中输出是依赖当前输入，递归神经网络中输出依赖当前输入以及过去的输入，从而赋予神经网络记忆能力

注意：递归神经网络分为时间递归和结构递归，我们这里是指时间递归的递归神经网络

2 递归神经网络的架构类别

第一种架构类别：从输入和输出的序列长度角度

1）N：N（最为常见的架构）

第一点：节点的理解

$x$ ：表示整个输入序列（ $x=[x_{1},x_{2},...,x_{t},..]$ ），其中 $x_{t}$ 表示时间t的输入（向量）
$h$ ：表示隐层的输出序列（ $h=[h_{1},h_{2},...,h_{t},..]$ ），其中 $h_{t}$ 表示时间t的隐层输出（向量）

注意： $h_{t}=f(s_{t}) ,s_{t}=Ux_{t}+Wh_{t-1}+b_{h_t}$

$o$ ：表示整个输出序列（ $o=[o_{1},o_{2},...,o_{t},...]$ ）,其中 $o_{t}$ 表示时间t的输出（向量）

注意： $o_{t}=g(Vh_{t})$

第二点：连接权重的理解

$U$ ：表示输出层和隐层的连接权重（方阵），将输入层的输入进行抽象来作为隐层的输入
$W$ ：表示隐层和隐层的连接权重（方阵），是记忆的控制者（负责记忆调度）
$V$ ：表示隐层和输出层的连接权重（方阵），将隐层的输出进行抽象来作为输出层的输入

2）N：M（Seq2Seq或者Encoder-Decoder模型）

第一步：将输入编码为词向量 $c$
第二步：将词向量 $c$ 解码为预测序列

注意：实际问题中，输入和输出几乎不等长

3）1：N（处理如图片标注问题，x是图像特征，y是一个句子）

第一种：在序列开始进行输入 $x$ 的计算

第二种：在序列的各个阶段，都进行同一个输入x的计算

4）N：1（处理如序列分类问题（情感倾向分析））

第二种架构类别：从隐层的传输方向角度

1）单向递归神经网络（以N：N为例）

2）双向递归神经网络（以N：N为例）

$x$ ：表示整个输入序列（ $x=[x_{1},x_{2},...,x_{t},..]$ ），其中 $x_{t}$ 表示时间t的输入（向量）
$\overrightarrow{h}$ ：表示隐层正向的输出序列（ $\vec{h}=[\overrightarrow{h}_{1},\overrightarrow{h}_{2},...,\overrightarrow{h}_{t},..]$ ），其中 $h_{t}$ 表示时间t的隐层输出（向量）

注意：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。