第十一周:深度学习基础

目录

摘要

Abstract

1. GRU(门控制单元)

2. 其他LSTM的变体

3. 自注意力机制

2.1 全连接网络下的序列任务

2.2 自注意力机制的原理和流程

总结


摘要

本文介绍了集长短期记忆网络(LSTM)的变体,有门控制单元(GRU)、“peephole connection LSTM”和耦合忘记门与输入门的LSTM此外,文章还介绍了自注意力机制,并详细阐述了其计算流程。

Abstract

This article introduces variants of the Long Short-Term Memory (LSTM) network, including the Gated Recurrent Unit (GRU), "peephole connection LSTM," and the coupled forget gate and input gate LSTM. In addition, the article discusses the self-attention mechanism and provides a detailed explanation of its computational process.
 

1. GRU(门控制单元)

GRU(门控制单元)之前学过的 LSTM(长短期记忆网络)的变体。

上图是普通RNN循环单元的可视化呈现,由第七周对LSTM的学习可知,普通的RNN主要存在两个问题:前部序列在传递到后部时,信息权重下降,导致重要信息丢失;求解过程中出现梯度消失和梯度爆炸问题。LSTM通过引进长期记忆单元来保存重要信息,来解决以上问题,GRU与LSTM类似,通过引入门控制来对信息有选择性的进行不同程度的保留。

上图就是简化的GRU,它的优点来自引入的门控制单元。如图所示,当从左往右扫描一个句子时,门单元就决定是否对记忆细胞的某个内容进行更新,如cat中有单复数的记忆,而到“was”前,这个单复数的记忆不能被更新,而预测到“was”之后可以被更新(遗忘),所以在“was”之前的门控制函数一直为“0”,而“was”之后可以为“1”,这就达到了控制记忆细胞更新的效果。

以上就是GRU最重要的思想,现在来看完整的GRU。

对于完整的GRU单元我要做的一个改变就是在我们计算的第一个式子中给记忆细胞的新候选值加上一个新的项,需要添加一个相关门(图中标号1的符号) ,这个门代表用于计算下一个c^{<t>}的候选值 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值