RNN & Seq2Seq

文章讨论了Feedforward与Recurrent神经网络的区别,重点在于RNN的训练问题,如梯度消失和梯度爆炸。为了解决这些问题,提出了梯度截断技术和门控RNN,如LSTM和GRU。LSTM的遗忘门能够有效地控制信息流动,防止梯度消失。此外,还提到了Seq2Seq模型在条件生成中的应用。
部署运行你感兴趣的模型镜像

Feedforward v.s. Recurrent

  1. Feedforward network does not have input at each step
  2. Feedforward network has different parameters for each layer

在这里插入图片描述

双向RNN

在这里插入图片描述
双向递归层可以提供更好的识别预测效果,但却不能实时预测,由于反向递归的计算需要从最末时刻开始,网络不得不等待着完整序列都产生后才可以开始预测。在对于实时识别有要求的线上语音识别,其应用受限

RNN如何训练

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

RNN的训练现象

  • 梯度截断
    梯度截断(Gradient Clipping)是一种用于解决梯度爆炸问题的技术。在深度学习中,由于网络层数的增加和反向传播算法的存在,梯度可能会变得非常大,导致网络无法收敛。
  • 为了解决这个问题,可以采用梯度截断技术,即限制梯度的大小,使其不超过一个指定的阈值。
    在这里插入图片描述

在这里插入图片描述

  • 举例子说明,0.99 和 1.01 的1000次方 ,因为时间t每更新一次,权重矩阵就要自乘一次
    在这里插入图片描述

RNN的问题

在实践中,如果序列过长会导致优化时出现梯度消散或梯度爆炸的问题,从而丧失学
习到连接如此远的信息的能力

  • 为了有效的利用梯度下降法学习,我们希望使不断相乘的梯度的积保持在接近1的数
    值。目前最有效的方式gated RNNs,通过gates的调控,允许线性自连接的权重在
    每一步都可以自我变化调节。LSTM就是gated RNNs中的一个实现

梯度消失的原因之一:tanh激活函数求导后的连乘

  1. 前向计算不可能保证都是1
  2. 反向传播可能趋近于0或者正无穷
    在这里插入图片描述

LSTM

  • LSTM 能解决梯度消失的问题,遗忘门
    • LSTM的遗忘门可以控制信息的流动,从而避免了梯度消失的问题。在传统的RNN中,每个时间步的输入和前一时刻的隐藏状态都会被直接传递到下一时刻,这样会导致信息在时间序列中不断累积,从而导致梯度消失或梯度爆炸的问题。而LSTM的遗忘门可以选择性地遗忘前一时刻的隐藏状态,从而控制信息的流动,避免了信息在时间序列中的累积。同时,LSTM的门控机制也可以控制信息的输入和输出,从而进一步避免了梯度消失或梯度爆炸的问题。因此,LSTM的遗忘门能够有效地解决梯度消失的问题。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GRU模型如下,它只有两个门了,分别为更新门和重置门,即图中的𝑧𝑡和𝑟𝑡。

  • 更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越小说明前一时刻的状态信息带入越多。
  • 重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。

Seq2Seq

  • 过程:Sample and Softmax
    在这里插入图片描述

Conditional Generation

  • generate based on conditions
    在这里插入图片描述
  • 这是一篇很好的笔记:http://codewithzhangyi.com/2018/10/31/NLP%E7%AC%94%E8%AE%B0-RNN/

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值