soft attention、hard attention、 local attention结构

Attention机制解析

最新推荐文章于 2024-10-01 08:25:52 发布

自学AI的鲨鱼儿

最新推荐文章于 2024-10-01 08:25:52 发布

阅读量1.5w

点赞数 16

CC 4.0 BY-SA版权

文章标签： NLP

本文链接：https://blog.youkuaiyun.com/qq_16555103/article/details/99760588

AI_NLP 专栏收录该内容

20 篇文章

订阅专栏

本文深入探讨了attention机制的不同类型，包括soft、hard、local及self-attention，并解释了它们在seq2seq模型和transformer/bert中的应用。从key与query生成权重到最终形成attention value，文章详细阐述了这一过程。

1、attention 理解方式

理解： key 与 query 生成权重 α ，α 与value 生成 attention value

注意：在tensorflow中 seq2seq + attention 的 attention 的 key 与 value 是相同的，都是解码器的输出，
但是在其他框架中就不一定了，例如 transformer / bert

2、soft attention、global attention

global attention 与 soft attention 结构完全一样

2、hard attention

1、Soft Attention中是对于每个Encoder的Hidden State会match一个概 率值，而在Hard Attention会直接找一个特定的
    单词概率为1，而 其它对应概率为0.

3、local attention

4、self attention（transformer）

https://blog.youkuaiyun.com/qq_16555103/article/details/100920480 ------------ transformer、bert网络

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

自学AI的鲨鱼儿

关注关注

16
点赞
踩
42

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

NLP-2015：Attention机制用于CV领域【Attention机制：Hard Attention、Soft Attention】

u013250861的博客

02-06

533

《原始论文：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》参考资料：论文笔记 - Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

一文读懂「Attention」注意力机制

女王の专属领地

01-08

1529

Attention（注意力）机制如果浅层的理解，核心逻辑就是**「从关注全部到关注重点」**。Attention 机制很像人类看图片的逻辑，当我们看一张图片的时候，我们并没有看清图片的全部内容，而是将注意力集中在了图片的焦点上。视觉系统就是一种Attention机制，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。销售在销售东西的时候，不同角色关注到的重点不一样。

3 条评论您还未登录，请先登录后发表或查看评论

注意力机制的分类 | Soft Attention和Hard Attention

Ftwhale的博客

08-10

9791

在前面两节的内容中我们已经介绍了注意力机制的实现原理，在这节内容中我们讲一讲有关于注意力机制的几个变种： Soft Attention和Hard Attention 我们常用的Attention即为Soft Attention，每个权重取值范围为[0,1] 对于Hard Attention来说，每个key的注意力只会取0或者1，也就是说我们只会令某几个特定的key有注意力，且权重均为1。 Global Attention和Local Attention 一般不特殊说明的话，我们采用的Attention都是G

soft Attention 和Hard Attention

热门推荐

ccbrid的博客

03-28

2万+

以下内容摘自：https://zhuanlan.zhihu.com/p/31547842 1.attention的提出：把输入X编码成一个固定的长度，对于句子中每个词都赋予相同的权重，这样是不合理的，没有区分度往往使模型性能下降。因此提出Attention Mechanism（注意力机制），用于对输入X的不同部分赋予不同的权重，进而实现软区分的目的。 Kelvin Xu等人与2015年发...

soft-attention (SENet、BAM、CBAM)

weixin_45615542的博客

08-23

2974

soft-Attention 是参数化的（Parameterization），因此可导，可以被嵌入到模型中去，直接训练。梯度可以经过Attention Mechanism 模块，反向传播到模型其他部分。与分类、回归训练原理完全一致。 Squeeze - and - Excitation Network (SENet) SENet旨在通过使网络能够动态调制各通道的权重（通道注意力），从而重新校准特征来提高网络的表达能力。采用全局平均汇集特征来计算通道方向的注意。 BAM（Bottleneck Att

Attention机制论文阅读——Soft和Hard Attention

nbawj的博客

06-03

1万+

论文：Show, Attend and Tell: Neural Image CaptionGeneration with Visual Attention提出了attention-based model的变种：Stochastic "Hard" Attention和Deterministic "Soft" Attention相同的框架：1、编码器：卷积神经网络提取特征：2、解码器：LSTM网络S...

【论文笔记】Attention总结二：Attention本质思想 + Hard/Soft/Global/Local形式Attention

changreal的博客

10-12

3940

Attention总结二：涉及论文： Show, Attend and Tell: Neural Image Caption Generation with Visual Attentio（用了hard\soft attention attention） Effective Approaches to Attention-based Neural Machine Translation（提出...

From Attention to Transformer.pptx

04-11

最初，注意力机制分为软注意力（Soft attention）和硬注意力（Hard attention）两种类型。 1. 软注意力（Soft attention）： - 软注意力机制允许模型对输入序列的各个部分分配权重，通过加权平均来生成一个上下文...

对比Attention的几种结构

yujianmin1990的专栏

08-18

5478

前言之前看到几篇关于attention思想的应用文章，现在对比下其中的Attention具体结构上的区别。 NMT by Jointly Learning to Align and Translate Effective Approaches to Attention-based NMT Show, Attention and Tell: Neural Image Caption Gen...

soft-attention--学习笔记

oneself的博客

10-11

1850

soft-attention--学习笔记

零基础学nlp【5】 hard attention 和 soft attention（Show, attend and tell: Neural image caption generation ）

rory0114的博客

03-12

1406

零基础学nlp【5】 hard attention 和 soft attention 论文：Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning...

soft / hard attention 机制理解——机器学习中的soft 和 hard

zhr1030635594的博客

05-18

3053

Soft attention是一种全局的attention，其中权重被softly地放在源图像所有区域 Hard attention一次关注图像的一个区域，采用0-1编码，时间花费较少，但是不可微分，所以需要更复杂的技术来进行训练下图是从果壳网（quora）摘取的一篇回答即在机器学习中soft 常常表示可微分，比如sigmoid和softmax机制而hard常常表示不可微分 soft hard attention机制是在图像生成标题任务中被提出的，其原始任务如下：上面是s..

local attention

ronghwa_lu

03-14

1015

Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. “Effective approaches to attention-based neural machine translation.” arXiv preprint arXiv:1508.04025 (2015). 转载1 转载2 Local attention 原来是上面这篇论文提出的。没看代码实现。原理简单：假设1：源序列和目标序列大致单调对齐 Monotonic alignmen

soft attention and self attention

qq_32539187的博客

05-24

1758

注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看，很明显其借鉴了人类的注意力机制，因此，我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人...

An End-to-End Local Attention Based Model for Table Recognition(ICDAR 2023)

mohen_777的博客

10-01

932

本文的主要贡献如下：1.提出在编码器decoder中使用局部注意力local attention机制。2.提出端到端的识别模型，便于训练和推理。3.实验证明了局部注意力机制在表格识别中的有效性。4.提出的方法在基准数据集上达到了state-of-the-art。一句话，局部注意力是利用窗口大小来使解码器更注重那些重要的tokens上。(1).局部注意力的公式以上公式是经典的transformer中的attention权重的计算。

gitblog_01080的博客

08-27

1067

Attention的两种机制——global attention/local attention

J~的博客

12-18

8815

目录 1Global Attention全局注意力机制权重计算函数 Local Attention References： 1Global Attention全局注意力机制权重计算函数眼尖的同学肯定发现这个attention机制比较核心的地方就是如何对Query和key计算注意力权重。下面简单总结几个常用的方法： 1、多层感知机方法主要...

Local Attention和动态深度卷积间的关系

bairw_Bella的博客

12-27

1248

Local Vision Transformer 是分别在一个个小的局部窗口中进行注意力计算。作者将局部注意力重新定义为通道级的局部连接层（channel-wise locally-connected layer），并4个方面进行分析：两种网络的正则化方式，稀疏连接和权值共享，以及动态权值计算。

一文搞懂深度学习的注意力机制 | 软和硬到底如何抉择？

YOLOv8项目贡献者

04-28

9371

大白话解析注意力机制

example attention