
torch API
寺里LZS
这个作者很懒,什么都没留下…
展开
-
Transformer decoder中masked attention的理解
前前后后看了挺久的Transformer,本以为自己理解了,可实现起来总觉得差点意思。encoder比较简单,不多介绍。记录一下decoder的使用。masked attention是要使用一个上三角矩阵torch.triu来实现对未来信息的掩盖。为什么就掩盖未来信息了?看了这篇博客,明白了但没完全明白,说是decoder在训练时用的groundtruth,防止误差累积,取得比较好的训练结果,但这样也没发现decoder的输入中有未来信息啊。在实践中,发现在训练时,如果要实现这个任务,.原创 2021-11-09 08:52:03 · 4723 阅读 · 0 评论 -
Torch中transformer模块中两种mask的用法
官方代码给的解释两种mask看的太绕,这里记录一下先贴出原文解释先理解mask是要将某位置忽略(ignore),不参与计算,而unmask反之。第一种mask是用于masked attention模块,对于byteTensor,0代表mask,非0代表unmask,对于boolTensor,True代表unmask,False代表mask。(感觉跟原文不太对,但实验结果就是这样)第二种mask是用于padding过程,True代表mask,False代表unmask。参考:Tr.原创 2021-11-08 15:36:26 · 2791 阅读 · 0 评论