人人都能懂的循环神经网络（RNN）完全解读

最新推荐文章于 2025-07-10 22:53:45 发布

天天进步2015

最新推荐文章于 2025-07-10 22:53:45 发布

阅读量407

点赞数 4

CC 4.0 BY-SA版权

分类专栏：人工智能深度学习文章标签： rnn 人工智能深度学习

本文链接：https://blog.youkuaiyun.com/exlink2012/article/details/145576006

人工智能同时被 2 个专栏收录

9 篇文章

订阅专栏

深度学习

3 篇文章

订阅专栏

引子：会记笔记的天气预报员

想象你有个天气预报助手，每天早晨你们会有这样的对话：

周一
你：“今天会下雨吗？”
助手：（查看传感器）“不会” ➔ 悄悄记下"周一晴"

周二
你：“要带伞吗？”
助手：（查看传感器 + 翻看昨天的笔记）“不用带” ➔ 更新笔记"连续晴天"

周三
你：“需要防晒吗？”
助手：（传感器显示多云，但看到"连续晴天"记录）“建议带防晒伞”

这就是循环神经网络的核心能力——带着记忆处理信息流。

二、传统神经网络 vs RNN 结构对比

普通神经网络（前馈型）

# 像没有记忆的实习生
def feedforward(x):
    return f(当前输入 x)

循环神经网络

# 像经验丰富的老员工
def rnn(x, hidden_state):
    综合信息 = 当前输入 x + 之前的记忆 hidden_state
    新记忆 = 更新记忆(综合信息)  # 相当于做笔记
    return 输出结果, 新记忆

三、RNN 工作原理拆解

核心组件解析

Hidden State（记忆载体）
- 相当于工作笔记本
- 每个时间步更新
- 存储历史信息的压缩表示
时间展开结构

# 伪代码实现时间步传播
class RNN_Cell:
    def __call__(self, x, h_prev):
        # 信息融合层
        combined = np.dot([x, h_prev], self.W) + self.b
        
        # 记忆更新（使用tanh防止数值爆炸）
        h_new = np.tanh(combined)
        
        # 生成输出
        output = np.dot(h_new, self.V) + self.c
        
        return output, h_new

四、RNN 的十八般武艺

1. 文本生成（记忆前文）

小说续写：“她推开古堡大门，突然…” ➔ 模型记得前文设下的伏笔
代码补全：for i in range( ➔ 预测)时需要知道前面有未闭合括号

2. 股票预测（时序分析）

# 处理股价序列示例
股价序列 = [100, 103, 98, 105...]
for 价格 in 股价序列:
    预测值, 记忆 = RNN(当前价格, 记忆)

3. 智能对话（上下文理解）

用户：“推荐部科幻电影”
助手：“《星际穿越》不错”
用户：“有没有轻松点的？” ➔ 需记住前面对话主题

五、RNN 的软肋与进化

短期记忆困境

当处理长文本时：

"很久以前...（中间5000字）...所以这就是结局"

基础RNN可能已经忘记开头的伏笔

解决方案演进史

模型类型	记忆机制	相当于
基础RNN	简单记事本	实习生笔记
LSTM	带重点标记的智能笔记本	学霸的错题本
GRU	便携式速记本	经理的日程本

LSTM 核心创新：

遗忘门：决定哪些记忆需要丢弃
输入门：控制新信息的录入
输出门：筛选要使用的记忆

六、为什么说RNN是革命性的？

参数共享
处理序列中每个元素使用相同参数，就像用同一把钥匙开所有门
变长输入处理
无论输入是10个单词还是1000个单词，网络结构保持不变
时间维度传播
信息可以跨越任意时间步传递，建立远距离依赖

七、动手时刻：用RNN预测温度变化

import numpy as np

# 模拟温度数据（0-23小时）
temperatures = [22, 23, 25, 27, 26, 24...] 

# 初始化RNN参数
hidden_size = 32
Wxh = np.random.randn(hidden_size, 1)  # 输入权重
Whh = np.random.randn(hidden_size, hidden_size)  # 记忆权重
bh = np.zeros((hidden_size, 1))  # 偏置项

hidden_state = np.zeros((hidden_size, 1))

for temp in temperatures:
    # 合并输入与记忆
    combined = np.dot(Wxh, [[temp]]) + np.dot(Whh, hidden_state) + bh
    # 更新记忆状态
    hidden_state = np.tanh(combined)
    # 预测下一时刻温度（简化为线性输出）
    next_temp = np.dot(Wxh.T, hidden_state)