
深度学习
seeInfinite
这个作者很懒,什么都没留下…
展开
-
关于attention机制在nlp中的应用总结
一、传统encoder-decoder模型 encoder-decoder模型也就是编码-解码模型。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。 具体实现的时候,编码器和解码器都不是固定的,可选的有CNN/RNN/BiRNN/GRU/LSTM等等,你可以自由组合。比如说,你在编码时使用BiRNN,解码时使用RNN,或者在编码时使...原创 2018-06-05 22:10:10 · 20099 阅读 · 4 评论 -
attention各种形式总结
hard attention记stst s_{t} 为decoder第 t 个时刻的attention所关注的位置编号stistis_{ti} 表示第 t 时刻 attention 是否关注位置 i stisti s_{ti} 服从多元伯努利分布(multinoulli distribution), 对于任意的 t , sti,i=1,2,...,Lsti,i=1,2,...,Ls_{t...原创 2018-06-23 15:26:03 · 66226 阅读 · 12 评论 -
深度学习-网络Xavier初始化方法
参考:深度学习-网络Xavier初始化方法转载 2018-07-23 12:08:21 · 867 阅读 · 0 评论 -
信息检索评价指标总结
参考: 参考博客MAP(Mean Average Precision): 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。 NDCG(N...转载 2018-05-09 11:18:12 · 1115 阅读 · 0 评论 -
Batch Normalization
参考公众号文章:https://mp.weixin.qq.com/s/xIEB8bzhhKJDCkwoyq_cMgBatch Normalization一、操作对象:1.放在激活函数之前2.放在激活函数之后二、主要操作:(此处以论文原始形式,BN放在激活函数之前讲解)主要包括两步:合并起来后的形式:变量代表意义aia_iai : 某个神经元原始激活值(即未经过激...转载 2018-10-24 13:54:19 · 760 阅读 · 0 评论