深度学习论文学习分享
文章平均质量分 92
深度学习论文学习分享
凉意啊
智能在读 菜鸟一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer 详解(2)
Masked的作用是使对应value的权值为0,对于query(t)和未来时刻的key的内积,赋值为负无穷大(-inf),这样使用softmax计算权值为0,所以计算output的时候只用到了t-1以前时刻的key-value pair的信息。保证了训练时和预测时的情况是一样的。Masked 是什么意思呢,从名字上可以看出来是 ”掩盖“ 的意思,其实归根结底就是一个意思,我们在做推理的时候,例如需要翻译 ‘I have a cat’ 也就是翻译 I 的时候,我们需要掩盖 I 之后的内容。原创 2023-10-27 22:31:31 · 1240 阅读 · 2 评论 -
Transformer 详解
transformer原创 2023-10-26 18:44:30 · 1845 阅读 · 0 评论
分享