AMC: Attention guided Multi-modal Correlation Learning for Image Search

本文介绍一种名为Attention-guided Multi-modal Correlation (AMC) 的新框架,该框架利用内部和外部注意力机制处理多模态图像检索问题。AMC能够根据查询意图动态调整模态权重,有效提升检索精度。

来源:CVPR2017

传统图像检索系统排序图像是根据一个单模态的相关性,随着互联网的发展,越来越多的图像可以通过相关的元数据这种丰富的模态形式使用。

本文问题:在学习子空间时,优于查询意图的变化,不是所有的模态具有同等的信息量。

解决方法:针对在图像检索中的问题,引入了两个注意力机制:

  1. 内部注意力机制(inrta-attention):帮助图像检索系统找到每个模态最具信息量的部分;
  2. 外部注意力机制(inter-attention):根据查询意图,平衡不同模态间的重要性。

即作者提出了一种新的学习方法:Attention guided Multi-modal Correlation(AMC)。AMC框架包括三个部分:visual intra-attention network (VAN), language intra-attention network (LAN) ; multi-modal inter-attention network (MTN).

相关性:在AMC space中,查询和与图像相关的模态间的相关性是通过计算查询嵌入向量和多模态嵌入向量的余弦距离。 多模态相关性学习:Canonical correlation analysis (CCA):学习一个子空间将不同模态的相关性最大化。(变种:KCCA, RCCA ,KPCA-CCA)

模型:

输入: a query , images ,related keywords         输出:image

 

                                                                             图1:AMC框架

 

                                                                                      图2:AMC模型框架

数据集:

  1. Keyword datasets
  2. Adobe Stock Dataset(ASD)
  3. Clickture dataset
  4. COCO Image Caption dataset(CIC)

2)和3)用于多模态图像检索任务,4)用于字幕排序任务。

总结:作者提出了AMC框架根据输入查询的意图,处理吗,每个模态中有用的信息,滤除模态中无关的信息。针对此框架,作者进行了多模态图像检索和字幕排序实验。在今后研究中,AMC框架可通过融合更多与图像像相关的模态和外部知识来提升。

由于给定引用中未涉及“基于小波和自适应坐标注意力引导的细粒度残差网络用于图像去噪(Wavelet and Adaptive Coordinate Attention Guided Fine - Grained Residual Network for Image Denoising)”的直接信息,下面基于通用的专业知识进行介绍。 ### 相关研究 在图像去噪领域,传统的去噪方法如均值滤波、中值滤波等,虽然简单有效,但在去除噪声的同时会模糊图像细节。随着深度学习的发展,卷积神经网络(CNN)在图像去噪任务中取得了显著进展。基于小波和自适应坐标注意力引导的细粒度残差网络是在已有研究基础上的进一步创新。 小波变换具有多分辨率分析的特性,能够将图像分解为不同尺度和方向的子带,有助于捕捉图像的局部和全局特征。自适应坐标注意力机制则可以根据图像内容自适应地调整注意力分布,增强对重要特征的关注。细粒度残差网络通过学习残差信息,能够更精确地恢复图像的细节。 ### 原理 - **小波变换**:将图像进行小波分解,得到不同尺度和方向的子带图像。这些子带图像包含了图像的低频和高频信息,低频子带反映了图像的整体轮廓,高频子带则包含了图像的细节和边缘信息。在去噪过程中,可以对不同子带进行不同的处理,以更好地保留图像的细节。 - **自适应坐标注意力机制**:该机制通过对特征图的通道和空间维度进行建模,自适应地计算注意力权重。在图像去噪中,它可以帮助网络聚焦于噪声严重的区域和图像的重要特征,提高去噪效果。 - **细粒度残差网络**:网络的输入是带噪图像,输出是预测的噪声图像。通过将带噪图像减去预测的噪声图像,得到去噪后的图像。残差网络的设计使得网络更容易学习到图像的残差信息,从而提高去噪的精度。 ### 应用 - **医学图像去噪**:在医学成像中,图像噪声会影响医生对病情的诊断。基于小波和自适应坐标注意力引导的细粒度残差网络可以有效去除医学图像中的噪声,提高图像的清晰度和对比度,帮助医生更准确地诊断疾病。 - **卫星图像去噪**:卫星图像在传输和采集过程中会受到各种噪声的干扰。该网络可以用于去除卫星图像中的噪声,提高图像的质量,为地理信息系统、环境监测等领域提供更准确的数据。 - **监控图像去噪**:监控摄像头在低光照、恶劣天气等环境下拍摄的图像往往存在较多噪声。使用该网络进行去噪处理,可以提高监控图像的清晰度,增强对目标的识别能力。 ```python # 以下是一个简单的残差块示例 import torch import torch.nn as nn class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels): super(ResidualBlock, self).__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1) self.relu = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1) def forward(self, x): residual = x out = self.conv1(x) out = self.relu(out) out = self.conv2(out) out += residual out = self.relu(out) return out ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值