deep learning入门(二)

本文介绍了深度学习中序列到序列模型的基本概念和技术,包括序列生成、条件序列生成及动态条件序列生成等,并探讨了Attention机制如何改善模型性能,同时涉及Recursive Network、Pointer Network等高级主题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DL入门(二)powered by @李宏毅


第四课(Sequence to Sequence)

outline

1 Sequence Generation

Sequence Generation
输入一个vector,输出也为一个vector。

2 Conditional Sequence Generation

产生符合某种情景的句子或者图片…
Conditional Sequence Generation

3 Dynamic Conditional Sequence Generation

假如输入的是一篇非常长的文章,我们没有办法将一个非常大的vector多次输入到Decoder中。
Dynamic Conditional Sequence Generation
example:
Dynamic Conditional Sequence Generation1

4 Tips of Generation

  1. attention
    在一个视频中存在许多的图片,那么machind可能会给某张图片中非常多的attention,例如下图,过于关注图二可能会产生多个woman,我们可以平均化每张图片的attention来试着解决这个问题。
    attention
  2. exposure bias
    如下图,在训练时maching可能只专门训练了某些‘路径’,在训练时maching可能会在第一步就选错,那么无论怎么样后续都不会正确。
    exposure bias

5 Pointer Network

详细解析:https://blog.youkuaiyun.com/dukuku5038/article/details/84112072

第五课(Recursive Network)

Recursive Network需要自己决定network的structure,而 Recurrent Network是固定的structure,可以说RNN是Recursive Network的一个special case。
Recursive Network
example:
核心在于找到一个f,可以正确地处理数据并且输出相应内容。f可以是NN。
example

1 Recursive Neural Tensor Network

主要在于 f 函数中包含了Tensor Network。
Recursive Neural Tensor Network

2 Tree LSTM

主要在于 f 函数由LSTM构成。
Tree LSTM

第六课(Attention based Model)

如下图所示,输入一个数据到中央控制器(DNN/RNN/…)之后中央控制器会根据attention weight 去控制接下来要attention到哪个位置,也就是说会选择相应位置将数据读取出来。
Attention based Model

1 Reading Comprehension(阅读理解)

让机器去读一篇文章,并且理解其中的内容。

(1) Memory Network

如下图所示,为MN的基础版本,将一个文章中的每个句子和提出的quesion各变为一个vector,计算question和每个句子的相似度α(即匹配度,weight),之后再做weight sum得出结果输入DNN得到最终answer。
 Memory Network-base
如下图所示,为MN的进阶版本,其中利用不同的matrix(learn 出来的)将句子进行两次transform(x相当与hash map的key,h相当于hash map的value),利用 h 和 相似度α 计算出weight sum得到一轮的结果,hopping的意思是将一轮计算出的结果输入到下一轮继续参与计算,不断重复(次数可以自定义也可以learn出来)…
Memory Network
Visual Question Answering
Visual Question Answering
Neural Turing Machine
Memory Network的另一个版本,不但可以读数据还可以写数据。但是运用不太广泛,可能是太复杂很难train起来。
Neural Turing  Machine
Stack RNN
当前使用的也不是很广泛,下图中的Push, Pop, Nothing为三个动作,不是看哪个概率大就只做哪个动作,而是三个动作都做,只不过相应动作的权重不同。
Stack RNN

第七课(ForDeep)

此节课程主要讲述有哪些方法可以应对train不起来的情况。
outline

1 Batch Normalization

将一个一个Batch的数据都做Normalization。
Batch-N
At test stage
由于在test阶段,数据都是一笔一笔地输入,所以我们没有办法得到相应的 μ 和 σ ,
理想的解决方法是再用整个train-data计算出整体的 μ 和 σ ,但是在unlive的model中不保存train-data的数据。
实际的解决办法是在 training 时拿每笔batch的 μ 和 σ 在最后求均值做为 test 中的参数。
Test
Benefit:
Benefit

2 Activation Function

(1) SELU

特性:
SELU
SELU1

3 Highway Network

将GRU中gate的概念用于Feedforward network。解决了训练深层神经网络的难题,Highway Networks 允许信息高速无阻碍的通过深层神经网络的各层,这样有效的减缓了梯度的问题,使深层神经网络不在仅仅具有浅层神经网络的效果。
Highway Network

3 Grid LSTM

在time和layer上都存在memory。
Grid LSTM

第八课(Tuning Hyperparameters)

1 grid search(网格搜索)

一种调参手段;穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。(为什么叫网格搜索?以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,循环过程就像是在每个网格里遍历、搜索,所以叫grid search)。
grid search

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值