[NIPS2017]Attention is all you need

本文深入解析Transformer模型,特别是Attention机制。通过Q、K、V的解释,阐述self-attention的工作原理,以及如何理解decoder self-attention中的Masked Multi-Head Attention。同时探讨公式(1)中的softmax(dkQKT)的意义,以及缩放因子dk的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原理源码讲解:https://www.jiqizhixin.com/articles/2018-11-06-10
https://nlp.seas.harvard.edu/2018/04/03/attention.html

这篇文章是火遍全宇宙,关于网上的解读也非常多,将自己看完后的一点小想法也总结一下。
看完一遍之后,有很多疑问,我是针对每个疑问都了解清楚后才算明白了这篇文章,可能写的不到位,只是总结下,下次忘记了便于翻查。
一:Q,K, V 到底是什么?
在传统的seq2seq框架下:
query: seq2seq模型中decode时隐层向量St−1_{t-1}t1, 记作qt−1_{t-1}t1, Q就是多个query组成的矩阵Q
value: seq2seq模型中encode时的隐层向量hi_ii,记作vi_ii, V是输入序列中n个词的embedding矩阵
key: 对hi_ii做了一次先行映射得到的向量, 记作ki_ii,K同上
在本文的transformer下,结合文字和图:
(1) encoder self-attention
Q 就是input sequence(w1w_1w1, w2w_2w2, …, wiw_iwi, …, wnw_nw

论文 *Attention is All You Need* 的原文是由 Vaswani 等人在 2017 年发表的一篇关于 Transformer 模型的经典论文。以下是该论文的主要内容概述以及获取方式: ### 论文基本信息 论文标题为 *"Attention is All You Need"*,作者列表包括 Ashish Vaswani、Noam Shazeer、Niki Parmar 等多位研究者[^1]。这篇论文首次提出了基于自注意力机制(Self-Attention Mechanism)的 Transformer 架构,彻底改变了自然语言处理领域。 #### 主要贡献 Transformer 模型通过引入一种全新的架构设计替代了传统的 RNN 和 CNN 方法,在机器翻译和其他多种 NLP 任务中取得了显著的效果提升。其核心创新在于 **自注意力机制**,它能够高效捕捉输入序列中的长距离依赖关系[^2]。 具体来说: - Attention 函数定义了一种通用框架,用于将查询 (Query) 和键值对 (Key-Value Pairs) 映射到输出向量。 - 输出由 value 向量加权求和得到,权重则取决于 query 和 key 之间的相似度得分计算结果[^3]。 如果希望直接访问原始文档,则可以通过以下链接下载 PDF 文件版本: [https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf](https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf) 此外还可以查阅其他资源进一步了解细节实现等内容。 ```python import requests def download_paper(url, filename="attention_is_all_you_need.pdf"): response = requests.get(url) with open(filename, 'wb') as f: f.write(response.content) # Example usage to save the paper locally. download_paper('https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值