Attention is all your need——paper 笔记

本文深入探讨了Transformer模型,一种摒弃了传统RNN和CNN结构,采用encoder和decoder间直接运用attention机制的创新模型。该机制有效解决了长依赖问题,缩短信息路径,优化了语义组合的处理,尤其在翻译任务中展现出卓越性能。同时,文章对比分析了multi-head attention与CNN的工作原理,讨论了两者在特征提取上的异同。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

 

去掉了 RNN 和 CNN ,直接用 encoder 和 decoder 的层与层之间直接使用 attention 机制,优点在于不需要 long-dependency 句子中的单词 dependency 长度最多只有1,减少了信息传输路径。 这种方式直接可以挖掘句子内部单词与单词的语义组合关系,将其作为一个语义整体,使得翻译时更好地利用单词组合甚至是短语的信息,更好地 decode 出语义匹配的目标语言单词。

muilti-head attention, 将输入向量切成8份, 这每一份可以看成一个local partial, 分别attention,最终再concat成一个context向量,如果将multi-head attention 的输入切成八分后的向量类比关注不同local paritial 的卷积核的话,CNN和multi-head attention 异曲同工。

CNN 和 RNN 都是一个特征融合过程,得到一个符合当前需要的 context

RNN:建模语言的时序特征,前面的单词依次 feed 到后面的单词,在 decoder 阶段对每个单词对应的 encoder 输出位置做 attention  ,但每个encoder 输出包含了前面单词的信息。前面单词信息往后传,走的路径很长,存在 long dependency 问题,LSTM/GRU 一定程度上能解决。

 

CNN:

利用卷积的感受野 receptive field,通过堆叠卷积层扩大每个 encoder 输出位置所覆盖单词的范围,每个单词走的路径大概是logk(n)步,缩短了 dependency 的长度。

局部权重共享的local connect, local connect 有多个核,随着学习收敛,feature map 的信息熵达到最大,此时可假设每个核关注的特征相互正交,进一步推出相关值最高的 local partial 也互不重复。

在本文模型基础上,往 encode 的 multi-head attention 前加一层 convolution 是否有意义。

attention  encode 的 context 和 cnn 后再 attention 的差别是没有引入时序关系, CNN 的 local partial 要比 multi-head 大一点,因为多了一个 window,CNN 时序的引入也在这里,这种时序关系强调了local dependency。attention encode 引入了position embedding,相当于cnn text 分类时,输入每个 token 加上position embedding后 self attention加权组合成分类结果,CNN for mnist,每个像素点加上二维坐标embedding。position embedding能帮助 attention 向量的 sum 过程保留时序语义,但在计算 attention weight的时候没办法根据 local dependency 决定 attention paritial,因为每个 token 都是独立计算weight。当前模型加一层cnn会不会更好,具体取决于decode 的每个词对于encode的local dependency依赖有多大,对local dependency依赖大的话,CNN更好。

 

 

### 如何正确引用论文 'Attention is All You Need' 在学术写作中,引用文献是遵循特定格式规范的重要环节。以下是几种常见的引用格式,用于正确引用论文 "Attention is All You Need": #### APA 格式 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In *Advances in Neural Information Processing Systems* (pp. 5998-6008). #### MLA 格式 Vaswani, Ashish, et al. "Attention is all you need." *Advances in Neural Information Processing Systems*, 2017, pp. 5998-6008. #### Chicago 格式 Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." In *Advances in Neural Information Processing Systems*, pp. 5998-6008. 2017. #### BibTeX 格式 ```bibtex @inproceedings{vaswani2017attention, title={Attention is all you need}, author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, {\L}ukasz and Polosukhin, Illia}, booktitle={Advances in Neural Information Processing Systems}, pages={5998--6008}, year={2017} } ``` 以上引用方式涵盖了最常见的学术引用标准[^4]。选择具体格式时,请根据目标期刊或会议的要求进行调整。 ### 注意事项 在引用过程中,确保所有作者的姓名、文章标题、会议名称以及页码等信息准确无误。此外,注意区分大小写和标点符号的使用,以符合所选引用格式的要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值