GRU详解全网最强大厂面试级深度的知识点整理

Xu_Wave

已于 2022-04-18 00:13:58 修改

阅读量1.3k

点赞数 1

分类专栏： NLP(包含深度学习) 文章标签：自然语言处理

于 2021-02-07 20:03:10 首次发布

本文链接：https://blog.youkuaiyun.com/qq_22795223/article/details/113746590

版权

NLP(包含深度学习) 专栏收录该内容

55 篇文章

订阅专栏

GRU是2014年提出的循环神经网络变体，旨在解决长期依赖问题，与LSTM类似但更简洁。GRU通过减少门控结构，拥有更少的参数，因此训练更快，适合资源有限的场景。尽管LSTM在某些情况下可能表现更好，特别是在大量数据下，但GRU因其高效和实用性常被优先选用。在实际应用中，LSTM和GRU各有优势，选择取决于计算资源和数据量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 什么是GRU

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

GRU和LSTM在很多情况下实际表现上相差无几，那么为什么我们要使用新人**GRU（2014年提出）而不是相对经受了更多考验的LSTM（1997提出）**呢。

引用论文中的一段话来说明GRU的优势所在：
在这里插入图片描述
简单来说就是贫穷限制了我们的计算能力…

相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。

OK，那么为什么说GRU更容易进行训练呢，下面开始介绍一下GRU的内部结构。

2. GRU浅析

2.1 GRU的输入输出结构

GRU的输入输出结构与普通的RNN是一样的。
在这里插入图片描述
那么，GRU到底有什么特别之处呢？下面来对它的内部结构进行分析！

2.2 GRU的内部结构

在这里插入图片描述

这里的 $h^{'}$ 主要是包含了当前输入的 $x^t$ 数据。有针对性地将 $h^{'}$ 添加到当前的隐藏状态（下图中 $h^t$ 的计算里包含有 $h^{'}$ ），相当于“记忆了当前时刻的状态”。先看下面的总体的更新公式，再回头记忆这个公式会好记一点。
在这里插入图片描述

GRU必须先看上面的这个更新表达式，然后再对 $h^{'}$ 进行展开理解！！！