
面试
我不是程序员
这个作者很懒,什么都没留下…
展开
-
面试——为什么要在循环神经网络中引入门控机制?
但是如果我们为了学习到非常久远的信息,而把所有过去时刻输入的信息都存储起来的话,会造成隐状态 h 上存储信息的饱和与重要信息的丢失。为此,一种比较好的方案是引入门控机制来控制信息的累积速度,包括有选择的加入新信息,并有选择地遗忘之前积累的信息。回顾一下,如果 t 时刻的预测 y 依赖于 t-k 时刻的输入 x,当时间间隔 k 比较大时,容易出现梯度消失或梯度爆炸的问题,那么循环神经网络就难以学习到如此久远的输入信息。在这种情况下,当目前的预测又需要用到比较久远的信息时,就会出现长期依赖问题。原创 2023-08-20 12:46:11 · 171 阅读 · 0 评论 -
面试——什么是长短期记忆?
在LSTM网络中,由于遗忘门的存在,如果选择遗忘大部分历史信息,则内部状态c保存的信息偏于短期,而如果选择只遗忘少部分历史信息,那么内部状态偏于保存更久远的信息,所以内部状态 c 中保存信息的历史周期要长于短期记忆 h,又短于长期记忆(网络参数),因此称为长短期记忆(long short-term memory)。因为网络参数一般是在所有“前向”和“后向”计算都完成后,才进行更新,隐含了从所有训练数据中学习到的经验,并且更新周期要远远慢于短期记忆,所以看做是长期记忆(long-term memory)。原创 2023-08-20 12:44:21 · 200 阅读 · 0 评论 -
LSTM面试——为什么在训练LSTM网络时遗忘的参数初始值一般都设得比较大?
这会导致梯度弥散问题.因此遗忘的参数初始值一般都设得比较大,一般在深度网络参数学习时,这意味着前一时刻的信息大部分都丢失了,这样网络很难捕捉到长距离的依赖信息。并且相邻时间间隔的梯度会非常小,过小的值会使得遗忘门的值比较小。参数初始化的值一般都比较小。但是在训练 LSTM。原创 2023-08-19 17:39:38 · 252 阅读 · 0 评论