
深度学习
Ice Cream_069
超越自我!
展开
-
神经网络的常用优化方法
目录梯度下降法(GD)随机梯度下降(SGD)批量梯度下降(BGD)小批次随机梯度下降mini-BGD动量MomentumNesterov Momentum(又叫Nesterov Accelerated Gradient)自适应方法AdagradRMSPropAdam(Adaptive Moment Estimate)参考文章梯度下降法(GD)...原创 2019-06-13 17:35:52 · 656 阅读 · 0 评论 -
Transformer作为特征提取器
Transformer之前上图是经典的双向RNN模型,我们知道该模型是通过递归的方式运行,虽然适合对序列数据建模,但是缺点也很明显“它无法并行执行”也就无法利用GPU强大的并行能力,再加上各种门控机制,运行速度很慢。一般而言,编码器输出编码向量C作为解码器输入,但是由于编码向量C中所有的编码器输入值贡献相同,导致序列数据越长信息丢失越多。CNN网络相比RNN网络,它虽然可以并行执行,但是无...转载 2019-05-02 13:35:35 · 14901 阅读 · 0 评论