11_关于注意力机制的发展与一些Paper..

1. 注意力机制的开创性工作

(1) Bahdanau et al. (2015)
  • 标题: Neural Machine Translation by Jointly Learning to Align and Translate
  • 会议: ICLR 2015
  • 贡献:
    • 首次将注意力机制引入Seq2Seq模型,解决传统模型在长序列上的信息瓶颈问题。
    • 提出基于双向RNN编码器和加法注意力(Additive Attention)的动态对齐方法。
    • 在机器翻译任务中显著提升效果,尤其是长句翻译性能。
  • 论文链接: arXiv:1409.0473

2. 注意力机制的改进与变体

(2) Luong et al. (2015)
  • 标题: Effective Approaches to Attention-based Neural Machine Translation
  • 会议: EMNLP 2015
  • 贡献:
    • 提出乘法注意力(Multiplicative Attention),包括点积、通用和拼接三种评分函数。
    • 区分全局注意力(Global Attention)和局部注意力(Local Attention),后者通过窗口限制计算范围以提升效率。
    • 在解码时使用当前时间步的隐藏状态而非上一时间步的状态。
  • 论文链接: arXiv:1508.04025
(3) Xu et al. (2015)
  • 标题: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
  • 会议: ICML 2015
  • 贡献:
    • 将注意力机制应用于图像描述生成任务,提出软注意力(Soft Attention)和硬注意力(Hard Attention)。
    • 软注意力通过可微加权求和处理图像区域特征,硬注意力通过强化学习优化离散选择。
  • 论文链接: arXiv:1502.03044

3. 自注意力与Transformer架构

(4) Vaswani et al. (2017)
  • 标题: Attention Is All You Need
  • 会议: NeurIPS 2017
  • 贡献:
    • 提出完全基于自注意力(Self-Attention)的Transformer架构,摒弃RNN结构。
    • 引入多头注意力(Multi-Head Attention)和位置编码(Positional Encoding),支持并行化计算。
    • 在机器翻译任务中取得SOTA,成为后续大模型(如BERT、GPT)的基础。
  • 论文链接: arXiv:1706.03762

4. 注意力机制的高效优化

(5) Sukhbaatar et al. (2015)
  • 标题: End-To-End Memory Networks
  • 会议: NeurIPS 2015
  • 贡献:
    • 提出基于记忆网络的多跳注意力机制,通过多次注意力迭代增强模型推理能力。
    • 为问答和语言建模任务提供新思路。
  • 论文链接: arXiv:1503.08895
(6) Child et al. (2019)
  • 标题: Generating Long Sequences with Sparse Transformers
  • 会议: ICML 2019
  • 贡献:
    • 提出稀疏注意力(Sparse Attention),通过局部连接和步长采样降低计算复杂度(从O(n²)到O(n√n))。
    • 在生成长文本和图像任务中显著提升效率。
  • 论文链接: arXiv:1904.10509

5. 多模态与跨任务应用

(7) Anderson et al. (2018)
  • 标题: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
  • 会议: CVPR 2018
  • 贡献:
    • 结合目标检测(Bottom-Up)与注意力机制(Top-Down),实现细粒度的图像-文本对齐。
    • 在图像描述生成和视觉问答任务中刷新性能记录。
  • 论文链接: arXiv:1707.07998
(8) Paulus et al. (2018)
  • 标题: A Deep Reinforced Model for Abstractive Summarization
  • 会议: ICLR 2018
  • 贡献:
    • 在文本摘要任务中结合注意力机制与强化学习,优化ROUGE和BLEU等非可微指标。
    • 提出混合损失函数(交叉熵+策略梯度),提升生成摘要的多样性和连贯性。
  • 论文链接: arXiv:1705.04304

6. 理论分析与可视化

(9) Jain & Wallace (2019)
  • 标题: Attention is Not Explanation
  • 会议: NAACL 2019
  • 贡献:
    • 对注意力权重的可解释性提出质疑,指出注意力分布与特征重要性可能不一致。
    • 引发对注意力机制解释性的广泛讨论。
  • 论文链接: arXiv:1902.10186
(10) Wiegreffe & Pinter (2019)
  • 标题: Attention is Not Not Explanation
  • 会议: EMNLP 2019
  • 贡献:
    • 回应Jain & Wallace的质疑,提出注意力机制在特定条件下仍具有解释性。
    • 强调注意力需结合具体任务和模型结构分析。
  • 论文链接: arXiv:1908.04626

关键研究方向总结

方向核心论文核心贡献
基础注意力机制Bahdanau (2015), Luong (2015)动态对齐、全局/局部注意力变体
自注意力与TransformerVaswani (2017)纯注意力架构、多头注意力
高效注意力Child (2019)稀疏注意力降低计算复杂度
多模态应用Xu (2015), Anderson (2018)图像-文本跨模态对齐
可解释性分析Jain & Wallace (2019)质疑注意力权重的解释性

延伸阅读

  1. 《动手学深度学习》第10章 (链接):含注意力机制的代码实现与实例解析。
  2. 《Neural Machine Translation》专著:系统讲解注意力机制在NMT中的演进。
  3. ACL/EMNLP/NeurIPS近年会议:关注高效注意力(FlashAttention)、因果注意力等前沿进展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值