论文笔记：Attention Is All You Need

最新推荐文章于 2024-06-03 11:56:47 发布

玛卡巴卡米卡巴卡

最新推荐文章于 2024-06-03 11:56:47 发布

阅读量174

点赞数

CC 4.0 BY-SA版权

分类专栏：注意力机制机器学习神经网络

本文链接：https://blog.youkuaiyun.com/travalscx/article/details/98165326

机器学习同时被 3 个专栏收录

62 篇文章

订阅专栏

神经网络

39 篇文章

订阅专栏

注意力机制

9 篇文章

订阅专栏

谷歌提出Transformer模型，采用注意力机制解决NLP中机器翻译问题，摒弃RNN结构，实现并行计算，提升效率。该模型引入自我注意力(self-attention)和编码器-解码器注意力(encoder-decoder attention)，对句子词进行位置嵌入，彻底改变Seq2Seq任务处理方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

谷歌发表的文章，针对nlp里的机器翻译问题，提出了一种基于注意力机制的的网络结构–Transformer。

https://blog.youkuaiyun.com/songbinxu/article/details/80332992
以往nlp里大量使用RNN结构和encoder-decoder结构，RNN及其衍生网络的缺点就是慢，问题在于前后隐藏状态的依赖性，无法实现并行，而文章提出的”Transformer”完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，这样做最大的好处是能够并行计算了。

https://www.jianshu.com/p/b1030350aadb
计算Attention首先要有query，key和value。我们前面提到了，Encoder的attention是self-attention，Decoder里面的attention首先是self-attention，然后是encoder-decoder attention。这里的两种attention是针对query和key-value来说的，对于self-attention来说，计算得到query和key-value的过程都是使用的同样的输入，因为要算自己跟自己的attention嘛；而对encoder-decoder attention来说，query的计算使用的是decoder的输入，而key-value的计算使用的是encoder的输出，因为我们要计算decoder的输入跟encoder里面每一个的相似度。

https://yq.aliyun.com/articles/342508
抛弃了 RNN 、lstm结构来做 Seq2Seq
对句子中的词进行position embedding
self-attention对自己的query k v进行

https://blog.youkuaiyun.com/appleml/article/details/83415489 这篇笔记写的不错
解释了Q，K， V 到底是什么

https://www.cnblogs.com/huangyc/p/9813907.html

https://www.jianshu.com/p/3f2d4bc126e6

https://cloud.tencent.com/developer/article/1377062