
神经网络
lookjie
test
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer并行化训练笔记
最近在看transformer,以及相关的分布式实现,发现有些问题不太明白,顺便记录下,如有错误欢迎大佬指正。在attention的介绍中(http://nlp.seas.harvard.edu/2018/04/03/attention.html),对并行化的训练给出了代码,但没有做详细的介绍,这里仔细的分析下相关代码:# Skip if not interested in multigpu.class MultiGPULossCompute: "A multi-gpu loss comput原创 2020-09-21 22:52:00 · 2542 阅读 · 0 评论 -
Wide and Deep应用
Wide and Deep应用– based on Google Analytics Customer Revenue Prediction最近发现一个回归任务,目标是预测谷歌商店的收入(链接),数据是用户在商店中的浏览数据,利用传统的GBDT方式可以做出一定的预测,baseline大约在1.4285(RSME),关于数据的处理和GBDT的训练在此不在赘述,仅记录下利用tensorflow训练wide and deep深度模型的结果。wide and deep 原理deep请大家注意,在deep层原创 2020-08-30 12:41:52 · 408 阅读 · 0 评论 -
tensorflow下lstm的实践
lstm作为一个优秀的rnn变体,在时间序列的预测中有着优秀的运用。在了解其原理1之后,继续来了解实践中的lstm如何运用。说道LSTM,首先得了解RNN在tensorflow中的基本函数tf.nn.rnn_cell.LSTMCell,相比基本的BasicLSTMCell模块,LSTMCell中有加入一些变种的特性clipping,projection layer,peep-hole等,如果不了解可以保持默认设置。LSTM的基本设置为:tf.nn.rnn_cell.LSTMCell(num_units=原创 2020-08-29 23:36:36 · 632 阅读 · 0 评论 -
attention笔记
在看attention is all you need这篇论文时,对其中的描述理解不透彻,结合代码,详细的跑下整体的流程,总结了几个问题,记录下来。为什么attention在Q∗KTQ*K^TQ∗KT之后需要除一个dk\sqrt{d_k}dk?attention有加法atttention(NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE, 2014):、点乘attention,其中,点乘的效率要高于加法原创 2020-07-01 13:53:33 · 1164 阅读 · 0 评论 -
自编码器python实现
自编码器自编码器是一种非常通用的神经网络工具。主要思想是通过一个编码器,将原始信息编码为一组向量,然后通过一个解码器,将向量解码为原始数据。通过衡量输入与输出的差别,来对网络参数进行训练。主要可以用来进行信息压缩。最进在了解GAN方向的应用,发现很多GANs类似与自编码器的思想,在条件GAN中,生成器类似于自编码器中的解码器。都是通过给定一组输入,来得到相应的图片。我比较好奇自编码器产生的编码...原创 2019-04-15 11:53:51 · 6514 阅读 · 10 评论