循环神经网络（Recurrent Neural Network）

最新推荐文章于 2025-07-09 14:51:50 发布

原创

最新推荐文章于 2025-07-09 14:51:50 发布 · 7k 阅读

10 ·

CC 4.0 BY-SA版权

本文是李宏毅教授课程的学习笔记，深入解析循环神经网络（RNN）及其变体，包括LSTM。RNN用于解决序列数据处理，如智慧订票系统，通过记忆单元保留上下文信息。介绍了RNN的基础框架，以及Jordan网络和双向RNN，重点讲解了LSTM的工作机制和优缺点，并展示了实际运算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本博客是针对李宏毅教授在Youtube上上传的课程视频的学习笔记。

课程视频链接

Introduction
Framework
RNN Example
Variants of RNN
- Jordan Network store output into memory
- Bidirectional RNN
Long Short-term Memory LSTM
- Framework
- Relationship with original network

Introduction

假设我们想做一个智慧订票系统，它能根据用户的文本输入获得订票必须的信息。那么对于系统来说，它所需的订票信息可以被视作若干槽（slot），这些槽需要被填充。比如在订票这里，槽包括目的地（destination），和到达时间（time of arrival）。那么订票系统就需要从用户的输入中提取出两个槽对应的信息填入。

那么，这个问题当然是可以用前馈神经网络来解的，只要把每个句子中的词都用一个词向量（word vector）来表示（最简单的方法是如下的1-of-N encoding，也包括Beyond 1-of-N encoding的一些方法），然后扔到NN（神经网络）里，让NN来判断该词是否代表目的地或者到达时间（属于某个槽的概率）。

1-of-N encoding

Beyond 1-of-N encoding

为了保证能够顾及到所有的词，我们可以加入一个”other”分量，表示未出现在该向量其它分量中的词；也可以做词散列化（word hashing）。

如下图，但是使用前馈神经网络的问题也很明显：我们会需要系统有记忆能力，即它能判断句子中的地点到底是目的地，还是出发地。 (eg：arrive Taipei on Nov.2nd 和 leave Taipei on Nov.2nd中的Taipei都是地点，但前者是目的地，后者是出发地，要买的票完全不一样)。所以，我们可能会希望我们的系统会记得它在看过“Taipei”之前，有看过”arrive”或”leave”。也即面对相同的输入，能输出相应的不同的结果的能力，于是，循环神经网络（Recurrent Neural Network）登场了。