阅读笔记 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

前言

论文讲的是两个模态的情感分析, 作者提出一个网络,此网络通过在多个层次上引入注意力,从视觉和文本中产生区分性特征。 通过利用视觉数据中的通道channel注意力空间注意力来获得双注意力的视觉特征。

总体来说

  • 用 两个注意力 channel attention 和 spatial attention 注意力 提高CNN 采集图像特征能力
  • 提出 语义注意力 模拟单词的图像区域与语义之间的相关性, 也就是一个JOINT ATTENDED MULTIMODAL LEARNING的过程(联合多模态学习)

模型结构

在这里插入图片描述

从图可以看出来 ,模型结构不算复杂

  • 两模态
  • 视觉部分 用 两个Attention
  • 文本部分先用LSTM 提取 然后加入视觉信息, 最终来分类

下面就分两块来说, 一是视觉提取模块, 二是 多模态融合(学习)模块

视觉提取模块

视觉提取模块及结构如下图

在这里插入图片描述

M表示 用Inception V3 得到图片的特征

AP 表示 average pooling

element-wise 表示

在这里插入图片描述

Channel Attention

这个在CV 上的 物体检测上用的比较多, 但是在情感分析方面, 大家忽略了channel 维度的Attention,作者在这里用到, 其结构如下图, 比较简单

在这里插入图片描述

用Inception V3 得到图片的特征 , 然后过一个channel attention , 其公式是

在这里插入图片描述

Spatial Attention

在上一步我们得到 Ac 也就是 经过Channel attention 得到的特征 F , 然后我们在经过一个Spatial Attention结构

在这里插入图片描述

多模态联合学习模块

首先 每个单词经过Glove 的embedding 后 过一个LSTM 得到 有上下文的 单词表示

Semantic Attention

对每个单词表示和 之前提取的视觉特征Vf进行 semantic attention,

  • 先计算联合特征

在这里插入图片描述

  • 计算每个单词权重

在这里插入图片描述

  • 得到单词特征加权和 加权和表示语义特征Sf

在这里插入图片描述

融合

然后我们将得到的语义特征和视觉特征 拼接起来, 用一个self-attention 进一步提取特征, 得到最后的特征表示进行分类

总结

这篇文章还是写的比较好的

  • 效果提升 我觉得首先在初步的提取部分 视觉部分比较关键, 说明说明: 特征提的好, 效果没烦恼
  • 融合方面把单词的特征 和 视觉结合在一起, 但是又不是Attention 的做法, 感觉理解还不是很透彻, 找师兄讨论一下
### 跨模态注意力特征融合在多光谱遥感影像目标检测中的实现技术 跨模态注意力特征融合(Cross-Modality Attentive Feature Fusion, CM-AFF)是一种用于提升多源数据处理性能的技术,在多光谱遥感影像的目标检测领域具有重要价值。以下是该方法的核心技术和实施细节: #### 1. 数据预处理与特征提取 为了有效利用多光谱遥感影像的不同波段特性,通常采用卷积神经网络(CNN)作为基础模型来提取空间和频域特征。通过设计双通道或多通道结构,可以分别针对不同类型的输入数据进行独立的特征学习[^1]。 ```python import torch.nn as nn class DualChannelFeatureExtractor(nn.Module): def __init__(self): super(DualChannelFeatureExtractor, self).__init__() self.channel_1 = nn.Sequential( nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2) ) self.channel_2 = nn.Sequential( nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2) ) def forward(self, x1, x2): f1 = self.channel_1(x1) f2 = self.channel_2(x2) return f1, f2 ``` #### 2. 注意力机制的设计 CM-AFF的关键在于引入注意力模块以增强相关区域的重要性并抑制无关背景干扰。具体来说,可以通过计算两个模态之间的相似度矩阵,并基于此调整权重分布[^2]。 ```python def attention_fusion(feature_map1, feature_map2): similarity_matrix = torch.matmul(feature_map1.permute(0, 2, 3, 1).view(-1, feature_map1.size()[1]), feature_map2.view(-1, feature_map2.size()[1]).t()) weight_vector = F.softmax(similarity_matrix, dim=-1) fused_feature = torch.mm(weight_vector.t(), feature_map1.view(-1, feature_map1.size()[1])) return fused_feature.reshape_as(feature_map2) ``` #### 3. 特征级联与分类器构建 经过上述步骤获得融合后的特征表示后,将其送入全连接层或者更复杂的预测头完成最终的任务需求——即定位感兴趣对象的位置及其类别标签信息输出过程。 --- #### 实验验证与评估指标 对于实际应用场景下的效果评测而言,常用的定量分析手段包括但不限于精确率(Precision),召回率(Recall)以及F1分数等综合考量标准;同时定性的可视化对比也能直观反映算法优劣之处. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值