deep learning入门（二）

最新推荐文章于 2025-06-12 11:57:11 发布

AndyViky

最新推荐文章于 2025-06-12 11:57:11 发布

阅读量371

点赞数

CC 4.0 BY-SA版权

分类专栏：知识梳理 AI 文章标签：机器学习深度学习人工智能

本文链接：https://blog.youkuaiyun.com/AndyViky/article/details/89049536

知识梳理同时被 2 个专栏收录

54 篇文章

订阅专栏

23 篇文章

订阅专栏

本文介绍了深度学习中序列到序列模型的基本概念和技术，包括序列生成、条件序列生成及动态条件序列生成等，并探讨了Attention机制如何改善模型性能，同时涉及Recursive Network、Pointer Network等高级主题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DL入门（二）powered by @李宏毅

第四课（Sequence to Sequence）

outline

1 Sequence Generation

Sequence Generation
输入一个vector,输出也为一个vector。

2 Conditional Sequence Generation

产生符合某种情景的句子或者图片…
Conditional Sequence Generation

3 Dynamic Conditional Sequence Generation

假如输入的是一篇非常长的文章，我们没有办法将一个非常大的vector多次输入到Decoder中。
Dynamic Conditional Sequence Generation
example:

4 Tips of Generation

attention
在一个视频中存在许多的图片，那么machind可能会给某张图片中非常多的attention，例如下图，过于关注图二可能会产生多个woman，我们可以平均化每张图片的attention来试着解决这个问题。
exposure bias
如下图，在训练时maching可能只专门训练了某些‘路径’，在训练时maching可能会在第一步就选错，那么无论怎么样后续都不会正确。

5 Pointer Network

详细解析：https://blog.youkuaiyun.com/dukuku5038/article/details/84112072

第五课（Recursive Network）

Recursive Network需要自己决定network的structure，而 Recurrent Network是固定的structure，可以说RNN是Recursive Network的一个special case。

example:
核心在于找到一个f，可以正确地处理数据并且输出相应内容。f可以是NN。
example

1 Recursive Neural Tensor Network

主要在于 f 函数中包含了Tensor Network。
Recursive Neural Tensor Network

2 Tree LSTM

主要在于 f 函数由LSTM构成。
Tree LSTM

第六课（Attention based Model）

如下图所示，输入一个数据到中央控制器（DNN/RNN/…）之后中央控制器会根据attention weight 去控制接下来要attention到哪个位置，也就是说会选择相应位置将数据读取出来。
Attention based Model

1 Reading Comprehension(阅读理解)

让机器去读一篇文章，并且理解其中的内容。

(1) Memory Network

如下图所示，为MN的基础版本，将一个文章中的每个句子和提出的quesion各变为一个vector，计算question和每个句子的相似度α（即匹配度，weight），之后再做weight sum得出结果输入DNN得到最终answer。
Memory Network-base
如下图所示，为MN的进阶版本，其中利用不同的matrix（learn 出来的）将句子进行两次transform（x相当与hash map的key，h相当于hash map的value），利用 h 和相似度α 计算出weight sum得到一轮的结果，hopping的意思是将一轮计算出的结果输入到下一轮继续参与计算，不断重复（次数可以自定义也可以learn出来）…

Visual Question Answering

Neural Turing Machine
Memory Network的另一个版本，不但可以读数据还可以写数据。但是运用不太广泛，可能是太复杂很难train起来。

Stack RNN
当前使用的也不是很广泛，下图中的Push, Pop, Nothing为三个动作，不是看哪个概率大就只做哪个动作，而是三个动作都做，只不过相应动作的权重不同。

第七课（ForDeep）

此节课程主要讲述有哪些方法可以应对train不起来的情况。
outline

1 Batch Normalization

将一个一个Batch的数据都做Normalization。
Batch-N
At test stage
由于在test阶段，数据都是一笔一笔地输入，所以我们没有办法得到相应的 μ 和 σ ,
理想的解决方法是再用整个train-data计算出整体的 μ 和 σ ，但是在unlive的model中不保存train-data的数据。
实际的解决办法是在 training 时拿每笔batch的 μ 和 σ 在最后求均值做为 test 中的参数。
Test
Benefit:
Benefit

2 Activation Function

(1) SELU

特性：
SELU
SELU1

3 Highway Network

将GRU中gate的概念用于Feedforward network。解决了训练深层神经网络的难题，Highway Networks 允许信息高速无阻碍的通过深层神经网络的各层，这样有效的减缓了梯度的问题，使深层神经网络不在仅仅具有浅层神经网络的效果。

3 Grid LSTM

在time和layer上都存在memory。
Grid LSTM

第八课（Tuning Hyperparameters）

1 grid search(网格搜索)

一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。（为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜索，所以叫grid search）。