Normalized and Geometry-Aware Self-Attention Network for Image Captioning阅读笔记

本文针对图像字幕任务,提出了规范化自注意力(NSA)以解决自注意力层的内部协变量偏移问题,并引入几何感知自注意力(GSA)来建模对象间的相对几何关系。通过结合NSA和GSA,形成NG-SAN,提升图像字幕的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文从两个方面对自注意(Self-attention)进行了改进,以提高图像字幕的性能。首先,提出了规范化自注意(NSA),它是SA的重新参数化,它带来了SA内部规范化的好处。其次,为了弥补Transformer无法对输入对象的几何结构进行建模的主要局限性,本文提出了一类几何感知自我注意(GSA),它扩展了SA,使之能够明确有效地考虑图像中对象之间的相对几何关系。
一、文章引入
自动生成图像字幕,即图像字幕,已成为计算机视觉(CV)与自然语言处理(NLP)交叉点上的一个突出研究课题。这项任务具有挑战性,因为它要求首先识别图像中的对象,它们之间的关系,最后用自然语言对它们进行适当的组织和描述。
自第一次在Transformer中引入SA以来,SA及其变体在CV和NLP任务中显示了有希望的经验结果。虽然基于SAN的框架在图像字幕显示方面取得了最先进的性能,但仍然存在两个有待解决的问题。
首先,SA易受内部协变量偏移(internal covariate shift)问题的影响。 通常,SA被视为一组查询和键/值对的映射。 从另一个角度观察到,可以将SA中注意权重的计算视为将查询馈入一个全连接层,该层的参数根据输入动态地计算。 当训练过程中由于网络参数的变化而导致查询的分布发生变化时,可能会发生问题。 也就是说,后续层必须不断适应新的输入分布,因此可能无法有效地学习SA。 这个问题被称为“内部协变量偏移”,即在前馈网络中,激活的分布在训练过程中偏移的趋势。
SA中的另一个关键问题是无法建模输入元素之间的几何关系。 原始的自注意将其输入视为“特征袋”,而忽略了它们的结构和它们之间的关系。 但是,从图像中提取基于区域的视觉特征进行图像字幕显示的对象本身具有几何结构-二维空间布局和比例/宽高比的变化。 对象之间的这种固有几何关系在理解图像内容方面起着非常复杂但至关重要的作用。 将位置信息注入SA的一个常见解决方案是向输入的每个元素添加绝对位置的表示,这在一维语句的情况中经常使用。 但是,此解决方案不适用于图像字幕,因为对象之间的2D几何关系很难从其绝对位置推断出来。
通过结合NSA和GSA,本文得到了一个增强的SA模块。然后,通过将自注意网络编码器中的普通SA模块替换为所提出的自注意网络,构建了规范化的几何感知的自注意网络NG-SAN。
二、基础工作
2.1. Self-Attention (SA)
首先回顾自注意的一种基本形式,称为“缩放点积注意”,它是首次被提出作为Transformer的核心部件。
自注意层首先将打包成矩阵X∈RN×dk的一组N个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值