上周导师让我可以先了解一下Transformer的模型,这周花了两三天时间查阅了相关资料以及论文,对Transformer有了一个大概的了解。(相关的代码还没看,后续会进一步了解一下相关代码)
相关资料
附上一个自认为相关博客里详解Transformer讲的最好的一篇:图解Transformer
另外一篇不错的Transformer理解:用放大镜看Transformer,总体和各个模块的结构到底是什么样的
以及Transformer的原论文:Attention is all you need
Attention和Self-Attention间的区别
- 一般在自然语言处理应用里会把Attention模型看作是输出Target句子中某个单词和输入Source句子每个单词的对齐模型,这是非常有道理的。
- 目标句子生成的每个单词对应输入句子单词的概率分布可以理解为输入句子单词和这个目标生成单词的对齐概率,这在机器翻译语境下是非常直观的:传统的统计机器翻译一般在做的过程中会专门有一个短语对齐的步骤,而注意力模型其实起的是相同的作用。
- 在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素Query和Source中的所有元素之间。而Self
Attent

最低0.47元/天 解锁文章
3580

被折叠的 条评论
为什么被折叠?



