序列模型和循环网络

本文探讨了序列建模中的独立性假设,介绍了自回归预测和递归神经网络(RNN)如何处理序列依赖。特别提到LSTM在防止激活值消失问题上的优势,以及RNN堆叠和深度网络中遇到的激活值/梯度爆炸/消失问题及其解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sequence Modeling and Recurrent Networks

Sequence modeling tasks

请添加图片描述

在以往的模型中,各个输入之间是独立分布的 x(i)x^{(i)}x(i) 之间是相互独立的,同样输出y(i)y^{(i)}y(i)之间也是相互独立的。

但是在序列模型中,输入输出是一个特定的序列,我们需要用到序列的相关信息。不能把各个输入看作是相互独立的存在。

请添加图片描述

autoregressive prediction
执行序列预测任务,输出依赖于之前的输入

请添加图片描述

Recurrent neural networks 循环神经网络

循环神经会维护一个 隐藏层,每个隐藏层都是通过前一层的隐藏层和当前的输入来计算的。

请添加图片描述

在整个模型中都只有一套 Wtt,Whx,Wyh,bh,byW_{tt}, W_{hx}, W_{yh}, b_h, b_yWtt,Whx,Wyh,bh,by,但是会对每一层都计算一个 hth_tht

train

请添加图片描述

RNN 堆叠

通过RNN堆叠可以将每一层做的很深,这里的深是指每一层的隐藏层更深。从x到y要经历更多的隐藏层。

请添加图片描述

激活值/梯度 爆炸 消失

请添加图片描述

请添加图片描述

和其他拥有很深的MLP 网络类似,RNN 也会面临激活值 、梯度值的爆炸或者消失。之前我们使用的normalization (batch-norm\layer-norm)

请添加图片描述

使用 sigmoid函数和tanh函数可以限制激活值和梯度的大小,但是并不能阻止梯度和激活值的消失。

LSTM

使用LSTM可以避免一些问题上的激活值消失

请添加图片描述

LSTM 的结构就扔在这里了,至于怎么工作的,不深究了。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值