【面筋】关于Attention

本文详细介绍了seq2seq模型的工作原理,包括Encoder和Decoder的职责,以及在长序列处理上的局限性。随后,文章阐述了Attention机制的引入原因、作用和流程,强调了其在处理输入序列差异化的重要性。Attention机制在多个领域的广泛应用,如自然语言处理和图像识别,以及其不同变体如Soft、Hard、Global和Local Attention的解释,使得模型能够更加聚焦于关键信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【面筋】关于Attention

一、seq2seq 篇

1.1 seq2seq (Encoder-Decoder)是什么?

  • 介绍:seq2seq (Encoder-Decoder)将一个句子(图片)利用一个 Encoder 编码为一个 context,然后在利用一个 Decoder 将 context 解码为 另一个句子(图片)的过程 ;
  • 应用:
    • 在 Image Caption 的应用中 Encoder-Decoder 就是 CNN-RNN 的编码 - 解码框架;
    • 在神经网络机器翻译中 Encoder-Decoder 往往就是 LSTM-LSTM 的编码 - 解码框架,在机器翻译中也被叫做 Sequence to Sequence learning

在这里插入图片描述

1.2 seq2seq 中 的 Encoder 怎么样?

  • 目标:将 input 编码成一个固定长度 语义编码 context
  • context 作用:
    • 1、做为初始向量初始化 Decoder 的模型,做为 decoder 模型预测y1的初始向量;
    • 2、做为背景向量,指导y序列中每一个step的y的产出;
  • 步骤:
      1. 遍历输入的每一个Token(词),每个时刻的输入是上一个时刻的隐状态和输入
      1. 会有一个输出和新的隐状态。这个新的隐状态会作为下一个时刻的输入隐状态。每个时刻都有一个输出;
      1. 保留最后一个时刻的隐状态,认为它编码了整个句子的 语义编码 context,并把最后一个时刻的隐状态作为Decoder的初始隐状态;

1.3 seq2seq 中 的 Decoder 怎么样?

  • 目标:将 语义编码 context 解码 为 一个 新的 output;
  • 步骤:
      1. 一开始的隐状态是Encoder最后时刻的隐状态,输入是特殊的;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值