论文《Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation》解析

《Learning Phrase Representations》论文解析

       论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》是由Kyunghyun Cho等人于2014年发表的。该论文主要有两个贡献:(1)是提出了RNN Encoder-Decoder架构,首次将Seq2Seq模型引入到统计机器翻译(SMT),为后续基于神经网络的机器翻译奠定了基础;(2)是提出了门控循环单元(GRU),通过引入重置门(reset gate)和更新门(update gate)的门控机制,解决了传统RNN的梯度消失问题和长期依赖学习困难。

      本文对该论文的上述两个贡献做详细的讲解。

一、GRU门控循环单元

       GRU的网络架构如下(我借用网上的一张图,在论文中的原始图片并这样,原论文中的图片较为简单,不便于理解)

         与LSTM不同,GRU没有细胞状态,而是直接使用隐藏状态。GRU由两个门控制:重置门(R)和更新门(Z)。

1.1 重置门

  • 作用:控制历史隐藏状态对当前候选状态的影响,决定是否“遗忘”部分历史信息。
  • 数学表达式                                                                             (1)
  • 功能解析:若,重置门关闭,忽略前一时刻隐藏状态,候选状态仅基于当前输入计算:  适用于需要丢弃无关历史信息的场景;若,保留全部历史信息,候选状态由共同决定:适用于依赖上下文的任务。
  • 示例:在句子“The cat, which ate the fish, was happy”中,处理到“was”时,重置门可能关闭(),忽略“which ate the fish”的中间信息,直接关联主语“The cat”。

1.2 更新门

  • 作用:平衡历史隐状态与新候选状态的比例,决定隐状态的更新程度。
  • 数学表达式                                                                           (2)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值