跟着问题学15——GRU网络结构详解及代码实战

最新推荐文章于 2025-05-10 14:10:21 发布

不如语冰

最新推荐文章于 2025-05-10 14:10:21 发布

阅读量1.6k

点赞数 8

分类专栏： AI与大模型笔记代码解析文章标签：深度学习 gru rnn python 人工智能机器学习语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42251091/article/details/144330552

版权

1 RNN的缺陷——长期依赖的问题（The Problem of Long-Term Dependencies）

前面一节我们学习了RNN神经网络，它可以用来处理序列型的数据，比如一段文字，视频等等。RNN网络的基本单元如下图所示，可以将前面的状态作为当前状态的输入。

但也有一些情况，我们需要更“长期”的上下文信息。比如预测最后一个单词“我在中国长大……我说一口流利的**。”“短期”的信息显示，下一个单词很可能是一种语言的名字，但如果我们想缩小范围，我们需要更长期语境——“我在中国长大”，但这个相关信息与需要它的点之间的距离完全有可能变得非常大。

不幸的是，随着这种距离的扩大，RNN无法学会连接这些信息。

从理论上讲，RNN绝对有能力处理这种“长期依赖性”。人们可以为他们精心选择参数，以解决这种形式的问题。遗憾的是，在实践中，RNN似乎无法学习它们。

幸运的是，GRU也没有这个问题！

2、GRU

什么是GRU

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

GRU和LSTM在很多情况下实际表现上相差无几，那么为什么我们要使用新人GRU（2014年提出）而不是相对经受了更多考验的LSTM（1997提出）呢。

用论文中的话说，相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。

2.1总体结构框架

前面我们讲到，神经网络的各种结构都是为了挖掘变换数据特征的，所以下面我们也将结合数据特征的维度来对比介绍一下RNN&&LSTM的网络结构。

多层感知机（线性连接层）结构

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。