循环神经网络(RNN)模型与前向反向传播算法

最新推荐文章于 2021-09-27 14:01:23 发布

文宇肃然

最新推荐文章于 2021-09-27 14:01:23 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：手把手教你ML机器学习算法源码全解析

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/98488871

手把手教你ML机器学习算法源码全解析专栏收录该内容

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍了循环神经网络(RNN)的基本概念、模型结构、前向传播算法以及反向传播算法的推导过程。RNN适用于处理序列数据，尤其在自然语言处理领域广泛应用，但由于梯度消失问题，实际应用中常使用其特例LSTM。

在前面我们讲到了DNN，以及DNN的特例CNN的模型和前向反向传播算法，这些算法都是前向反馈的，模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络：循环神经网络(Recurrent Neural Networks ，以下简称RNN)，它广泛的用于自然语言处理中的语音识别，手写书别以及机器翻译等领域。

1. RNN概述

　　　　在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。

　　　　而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引ττ的。对于这其中的任意序列索引号tt,它对应的输入是对应的样本序列中的x(t)x(t)。而模型在序列索引号tt位置的隐藏状态h(t)h(t)，则由x(t)x(t)和在t−1t−1位置的隐藏状态h(t−1)h(t−1)共同决定。在任意序列索引号tt，我们也有对应的模型预测输出o(t)o(t)。通过预测输出o(t)o(t)和训练序列真实输出y(t)y(t),以及损失函数L(t)L(t)，我们就可以用DNN类似的方法来训练模型，接着用来预测测试序列中的一些位置的输出。

　　　　下面我们来看看RNN的模型。