- 博客(4)
- 收藏
- 关注
转载 滑动平均模型
转载:https://www.cnblogs.com/buxizhizhoum/p/8301284.htmltensorflow使用tf.train.ExponentialMovingAverage实现滑动平均模型,在使用随机梯度下降方法训练神经网络时候,使用这个模型可以增强模型的鲁棒性(robust),可以在一定程度上提高模型在测试数据集上的表现。滑动平均模型为每个变量维护一个影子变量,其初始值...
2018-06-17 15:36:43
991
原创 Long Short Term Memory networks(LSTMs)
背景:在我之前的一篇博客中说了一下对RNN的理解,RNN对于长句子表示的不是很好,超过六七层的网络之后就很难获得之前内容的信息了,目前的框架是基于梯度的,多层网络很容易出现梯度弥散的情况。但是对于NLP任务中,输入序列长度会很长,基本的RNN网络就不太适合处理这些任务了。于是大牛们Hochreiter & Schmidhuber [1]就提出了LSTM网络,让处理长序列也变得可能。原理:L...
2018-05-20 21:34:39
644
原创 图解RNN
循环神经网络(recurrent neural network)或RNN是一类用于处理序列数据的神经网络。就像卷积网络是专门用于处理网格化数据(如一个图像)的神经网络,循环神经网络是专门用于处理序列x1,... xt 的神经网络。本文将通过语言模型中RNN的应用来浅谈自己对RNN的理解。图1 RNN展开图上图表示一个RNN的展开图,其中,X为输入,隐层是S,输出是O。RNN输入到隐藏的连接由权重矩...
2018-03-04 16:14:29
1647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人