一文读懂「Attention」注意力机制

前言:Attention是很多内容的重点,因此需要详细了解一下 Attention 的内部逻辑,一般情况attention分为很多种类型,不同的技术涉及不同类型,这里单介绍Attention的基本逻辑。
资料:

  1. Attention is All You Need:Attention Is All You Need
  2. 基础介绍:https://zhuanlan.zhihu.com/p/53036028
  3. 视频介绍:https://www.bilibili.com/video/BV1Ff4y187nr?p=1&vd_source=f27f081fc77389ca006fcebf41bede2d

一、什么是注意力机制?

Attention(注意力)机制如果浅层的理解,核心逻辑就是**「从关注全部到关注重点」**。

案例辅助理解:

  1. Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。视觉系统就是一种Attention机制,将有限的注意力集中在重点信息上
注意力机制Attention Mechanism),尤其是自注意力(Self-Attention)机制,在自然语言处理(NLP)领域如Transformer模型中扮演了核心角色。它是一种计算模型对输入序列中每个位置的重要性的方式,允许模型集中关注相关的部分,而不是对所有信息等同对待。 传统的RNNs或CNNs只能依赖于固定长度的上下文窗口或局部信息。而注意力机制通过计算查询(query)、键(key)和值(value)之间的相似度,生成了一个注意力权重向量,这个向量表明了哪些输入部分应该被赋予更高的权重。具体来说: 1. **Query、Key和Value**:每个输入序列的位置都有一个对应的查询、键和值向量。通常查询用于寻找对应的信息,键用于评估查询的相关性,值则包含了原始的信息内容。 2. **注意力得分**:通过计算查询和每个键的点积,然后除以键的平方根,我们得到的是一个分数,表示每个位置对于当前查询的重要程度。 3. **加权和**:将这些得分转换为概率分布,然后用这个分布去乘以所有的值,得到加权后的“注意力”向量。这个向量只包含对当前位置最相关的部分。 4. **多头注意力**:为了捕捉不同类型的依赖,注意力机制可以有多个“头”(heads),每个头负责关注序列的不同方面。 注意力机制极大地提高了模型对长距离依赖的理解能力,并在机器翻译、文本摘要、情感分析等各种任务上取得了显著效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

朱晓霞AI

您的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值