Python深度学习——循环神经网络

最新推荐文章于 2024-11-23 09:25:56 发布

czslxk

最新推荐文章于 2024-11-23 09:25:56 发布

阅读量453

点赞数 1

分类专栏： Python深度学习之pytorch 文章标签：循环神经网络深度学习神经网络

本文链接：https://blog.youkuaiyun.com/weixin_45717457/article/details/104383859

版权

本文探讨了现代循环神经网络（RNN），包括GRU和LSTM，它们在处理时间序列数据时能有效捕获长期依赖关系。通过训练实例展示了LSTM在文本生成任务上的应用，随着训练轮数增加，生成的文本逐渐通顺连贯。同时提到了深度循环神经网络和双向RNN，更多内容将在后续博客中分享。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MordernRNN

GRU

RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）
⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系

重置⻔有助于捕捉时间序列⾥短期的依赖关系；
• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

LSTM

长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞：⼀种特殊的隐藏状态的信息的流动

初始化参数：

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)

def get_params():
    def _one(shape):
        ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32)
        return torch.nn.Parameter(ts, requires_grad=True)
    def _three():
        return (_one((num_inputs, num_hiddens)),
                _one((num_hiddens, num_hiddens)),
                torch.nn.Parameter(torch.zeros(num_hiddens, device=device, dtype=torch.float32), requires_grad=True)

最低0.47元/天解锁文章