深度学习 RNN基础

本文详细介绍了循环神经网络(RNN)的基础知识,包括RNN的定义、与CNN的区别、主要应用领域,以及如何处理序列数据。文章还探讨了RNN中的梯度消失问题及其解决方案,如LSTM,并提到了注意力机制在RNN中的作用。RNN在自然语言处理、机器翻译等领域有广泛应用,但长序列处理时的梯度消失问题限制了其性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

深度学习 RNN基础

目录

1、定义

2、有了CNN,为什么需要RNN?

3、RNN的主要应用领域有哪些呢?

4、RNN的计算过程

5、标准RNN前向输出流程

6、RNN的建模方式

7、CNN和RNN的异同点

8、RNN中为什么会出现梯度消失?如何解决?

9、如何理解RNN的注意力机制

1、定义

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network) 。

对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一 ,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络 。

2、有了CNN,为什么需要RNN?

在CNN网络中的训练样本的数据为IID数据(独立同分布数据),所解决的问题也是分类问题或者回归问题或者是特征表达问题。但更多的数据是不满足IID的,如语言翻译,自动文本生成。它们是一个序列问题,包括时间序列和空间序列。比如时间序列数据,这类数据是在不同时间点上收集到的数据,反映了某一事物、现象等随时间的变化状态或程度。一般的神经网络,在训练数据足够、算法模型优越的情况下,给定特定的x,就能得到期望y。其一般处理单个的输入,前一个输入和后一个输入完全无关,但实际应用中,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的,这时就要用到RNN网络。

序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译)。RNN不仅能够处理序列输入,也能够得到序列输出,这里的序列指的是向量的序列。RNN学习来的是一个程序,也可以说是一个状态机,不是一个函数。

3、RNN的主要应用领域有哪些呢?

RNN的应用领域有很多, 可以说只要考虑时间先后顺序的问题都可以使用RNN来解决.这里主要说一下几个常见的应用领域:

​ ① 自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理

​ ② 机器翻译, 机器写文章

​ ③ 语音识别

​ ④ 图像描述生成

​ ⑤ 文本相似度计算

​ ⑥ 推荐系统。例如:音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域。

4、RNN的计算过程

在进一步了解RNN之前,先给出最基本的单层网络结构,输入是x,经过变换Wx+b和激活函数f得到输出y:

Y < − − x Y<--x Y<x

y = f ( w x + b ) y=f(w x+b) y=f(wx+b)

y = f ( x ) y=f(x) y=f(x)

在实际应用中,我们还会遇到很多序列形的数据,如:

  • 自然语言处理问题。x1可以看做是第一个单词,x2可以看做是第二个单词,依次类推。
  • 语音处理。此时,x1、x2、x3……是每帧的声音信号。
  • 时间序列问题。例如每天的股票价格等等。

前面介绍了诸如此类的序列数据用原始的神经网络难以建模,基于此,RNN引入了隐状态h(hidden state),h可对序列数据提取特征,接着再转换为输出。

为了便于理解,先计算h_1:

h 1 = f ( U x 1 + W h 0 + b ) h 1=f(U x 1+W h 0+b) h1=f(Ux1+Wh0+b)

RNN中,每个步骤使用的参数U,W,b相同,h_2的计算方式和h_1类似,其计算结果如下:

h 2 = f ( U x 2 + W h 1 + b ) h 2=f(U x 2+W h 1+b) h2=f(Ux2+Wh1+b)

接下来,计算RNN的输出y_1,采用Softmax作为激活函数,根据y_n=f(Wx+b),得y_1:

y 1 = Softmax ⁡ ( V h 1 + C ) y 1=\operatorname{Softmax}(V h 1+C) y1=Softmax(Vh1+C)

使用和y_1相同的参数V,c,得到y_1,y_2,y_3,y_4的输出结构:

h0---->h1—>h2---->h3---->h4

y1<—h1<----x1

y2<—h2<----x2

y3<—h3<----x3

y4<—h4<----x4

以上即为最经典的RNN结构,其输入为x_1,x_2,x_3,x_4,输出为y_1,y_2,y_3,y_4,当然实际中最大值为y_n,这里为了便于理解和展示,只计算4个输入和输出。从以上结构可看出,RNN结构的输入和输出等长。

5、标准RNN前向输出流程

以x表示输入,h是隐层单元,o是输出,L为损失函数,y为训练集标签。t表示t时刻的状态,V,U,W是权值,同一类型的连接权值相同。

对于t时刻:

h ( t ) = lvarrho ⁡ U x ( t ) + w h ( t − 1 ) + b ) h(t)=\operatorname{lvarrho} U x(t)+w h(t-1)+b) h(t)=lvarrhoUx(t)+wh(t1)+b)

其中 ϱ \varrho ϱ为激活函数,一般会选择tanh函数,b为偏置。

t时刻的输出为:

ϱ ( t ) = V h ( t ) + C \varrho(t)=V h(t)+C ϱ(t)=Vh(t)+C

模型的预测输出为:

y ( t ) = \left.y^{(} t\right)= y(t)= ϱ ( o ( t ) ) \varrho(o(t)) ϱ(o(t))

其中 ϱ \varrho ϱ为激活函数,通常RNN用于分类,故这里一般用softmax函数。

6、RNN的建模方式

​ 序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译),针对不同的序列建模方式也不一样。

(1)一对多(vector-to-sequence )

​ 输入是一个单独的值,输出是一个序列。此时,有两种主要建模方式:

​ 方式一:可只在其中的某一个序列进行计算,比如序列第一个进行输入计算,其建模方式如下:

​ y1<-----h1<-----y2<----h2-----y3<------h3<—y4<--------h4----x

方式二:把输入信息X作为每个阶段的输入,其建模方式如下:

h0—>h1----->h2----->h3----->h4----x

应用场景:

一是从图像生成文字,输入为图像的特征,输出为一段句子。

二是根据图像生成语音或音乐,输入为图像特征,输出为一段语音或音乐。

(2)多对一(sequence-to-vector )

输入是一个序列,输出是一个单独的值,此时通常在最后的一个序列上进行输出变换,其建模如下所示:

y1<-----h1<-----y2<----h2-----y3<------h3<—y4<--------h4----x

h0—>h1----->h2----->h3----->h4----x

Y=Softmax(Vh4+C)

应用场景:

输出一段文字,判断其所属类别 2、输入一个句子,判断其情感倾向 3、输入一段视频,判断其所属类别

(3)多对多(Encoder-Decoder )

建模步骤如下:

步骤一:将输入数据编码成一个上下文向量c,这部分称为Encoder,得到c有多种方式,最简单的方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。其示意如下所示:

(1) C=h4

(2) C=q(h4)

(3)C=q(h1,h2,h3,h4)

h0—>h1---->h2----->h3---->h4------>C

h1–>x1---->h2---->x2----h3---->x3----->h4---->x4------->C

步骤二:用另一个RNN网络(我们将其称为Decoder)对其进行编码

方法一是将步骤一中的c作为初始状态输入到Decoder,示意图如下所示:

​ y1 y2 y3

h0—>h1---->h2----->h3---->h4------>C------>h1’---->h2’------>h3’

​ x1 x2 x3 x4

方法二是将c作为Decoder的每一步输入,示意图如下所示:

​ y1 y2 y3

h0----->h1---->h2------->h3------>h4-------->C----------->h1’------->h2’<------h3’

​ x1 x2 x3 x4

1、机器翻译,输入一种语言文本序列,输出另外一种语言的文本序列

2、文本摘要,输入文本序列,输出这段文本序列摘要

3、阅读理解,输入文章,输出问题答案

4、语音识别,输入语音序列信息,输出文字序列

7、CNN和RNN的异同点

类别特点描述
相同点1、传统神经网络的扩展。 2、前向计算产生结果,反向计算模型更新。3、每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接
不同点1、CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算 2、RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出

8、RNN中为什么会出现梯度消失?如何解决?

梯度消失的原因:sigmoid函数的导数范围是(0,0.25],tanh函数的导数范围是(0,1],他们的导数最大都不大于1,如果取tanh或sigmoid函数作为激活函数嵌套到RNN中,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。

实际使用中,会优先选择tanh函数,原因是tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。

解决RNN中的梯度消失方法主要有:

1、选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“,但设定合适的阈值可以解决这个问题。

2、加入BN层,其优点包括可加速收敛、控制过拟合,可以少用或不用Dropout和正则、降低网络对初始化权重不敏感,且能允许使用较大的学习率等。

2、改变传播结构,选择更高级的模型,例如:LSTM结构可以有效解决这个问题

9、如何理解RNN的注意力机制

在上述的Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征c再解码,因此,c中必须包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。如机器翻译问题,当要翻译的句子较长时,一个c可能存不下那么多信息,就会造成翻译精度的下降。Attention机制通过在每个时间输入不同的c来解决此问题。

引入了Attention机制的Decoder中,有不同的c,每个c会自动选择与当前输出最匹配的上下文信息,其示意图如下所示

​ y1 y2 y3

h0’---->h1’---->h2’---->h3’

​ c1 c2 c3

举例,比如输入序列是“我爱中国”,要将此输入翻译成英文:

假如用a{ij}衡量Encoder中第j阶段的h_j和解码时第i阶段的相关性,a{ij}从模型中学习得到,和Decoder的第i-1阶段的隐状态、Encoder 第j个阶段的隐状态有关,

最终Decoder中第i阶段的输入的上下文信息 c_i来自于所有h_j对a_{ij}的加权和。

其示意图如下图所示:

在Encoder中,h_1,h_2,h_3,h_4分别代表“我”,“爱”,“中”,“国”所代表信息。翻译的过程中,c_1会选择和“我”最相关的上下午信息,如上图所示,会优先选择a{11},以此类推,c_2会优先选择相关性较大的a{22},c_3会优先选择相关性较大的a{33},a{34},这就是attention机制。

RNN虽然理论上可以很漂亮的解决序列数据的训练,但是它也像DNN一样有梯度消失时的问题,当序列很长的时候问题尤其严重。因此,RNN模型一般不能直接用于应用领域。在语音识别,手写书别以及机器翻译等NLP领域实际应用比较广泛的是基于RNN模型的一个特例LSTM。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值