论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》是由Kyunghyun Cho等人于2014年发表的。该论文主要有两个贡献:(1)是提出了RNN Encoder-Decoder架构,首次将Seq2Seq模型引入到统计机器翻译(SMT),为后续基于神经网络的机器翻译奠定了基础;(2)是提出了门控循环单元(GRU),通过引入重置门(reset gate)和更新门(update gate)的门控机制,解决了传统RNN的梯度消失问题和长期依赖学习困难。
本文对该论文的上述两个贡献做详细的讲解。
一、GRU门控循环单元
GRU的网络架构如下(我借用网上的一张图,在论文中的原始图片并这样,原论文中的图片较为简单,不便于理解)

与LSTM不同,GRU没有细胞状态,而是直接使用隐藏状态。GRU由两个门控制:重置门(R)和更新门(Z)。
1.1 重置门
- 作用:控制历史隐藏状态对当前候选状态的影响,决定是否“遗忘”部分历史信息。
- 数学表达式:
(1)
- 功能解析:若
,重置门关闭,忽略前一时刻隐藏状态
,候选状态
仅基于当前输入
计算:
适用于需要丢弃无关历史信息的场景;若
,保留全部历史信息,候选状态由
和
共同决定:
适用于依赖上下文的任务。
- 示例:在句子“The cat, which ate the fish, was happy”中,处理到“was”时,重置门可能关闭(
),忽略“which ate the fish”的中间信息,直接关联主语“The cat”。
1.2 更新门
- 作用:平衡历史隐状态与新候选状态的比例,决定隐状态的更新程度。
- 数学表达式:
(2)
《Learning Phrase Representations》论文解析

最低0.47元/天 解锁文章

623

被折叠的 条评论
为什么被折叠?



