Hierarchical Supervised Contrastive Learning for Multimodal Sentiment Analysis

鱼儿也有烦恼

已于 2024-10-30 11:23:09 修改

阅读量1.1k

点赞数 15

分类专栏：多模态文章标签：多模态情感分析深度学习 MSA 论文笔记

于 2024-10-30 11:22:16 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_48958956/article/details/143360250

版权

多模态专栏收录该内容

17 篇文章

订阅专栏

文章目录

HSCL：多模态情感分析的分层监督对比学习

HSCL：多模态情感分析的分层监督对比学习

总结：采用了层次化对比学习结构，以有效对齐和融合各种模态。此外，通过监督对比回归，旨在定义一个嵌入根据标签接近性对齐的子空间。这一策略在多个层次上丰富了表征。

文章信息

作者：Kezhou Chen，Shuo Wang

单位：中国科学技术大学-教育部脑启发智能感知与认知重点实验室

会议/期刊：MultiMedia Modeling（CCF C）

题目：Hierarchical Supervised Contrastive Learning for Multimodal Sentiment Analysis

发布日期：2024 年 1 月 28 日

代码：https://github.com/Turdidae810/HSCL

数据集：CMU-MOSI、CMU-MOSEI

算力要求：Nvidia RTX 3090 GPU（24G）

研究目的

弥补各种模态之间存在的语义差异，解决模态异构性的问题。

研究内容

将监督对比学习（SCL）引入 MSA 任务，提出了一种层次化监督对比学习方法（HSCL），以对齐来自不同模态的内容，包括单模态表征和双模态融合特征。同时，使用标签来约束对齐的表征，以保留丰富的情感语义。

引入了有监督的对比学习，并提出了一种分层训练策略，即从低层和高层特征表征中捕捉情感。
设计了self-attention和cross-attention模块，以融合来自不同模态数据的表征，从而提供更有效的情感内容。
结果表明，HSCL 在两个公开的多模态情感分析数据集上取得了最先进的性能。

研究方法

1.总体结构

对于三种不同类型的数据，采用不同的特征提取器将这些数据转换成具有代表性的特征。随后，采用有监督的对比回归来调整这些单模态表征。同时，设计了两种跨模态注意力结构来融合不同的表征，并使用高级监督对比学习来衡量模态间的关系。最后，这一过程会产生任务对齐的多模态表征，可以有效预测给定视频中的情感。

在这里插入图片描述

2.单模态表征提取

首先，使用BERT提取文本模态特征，使用COVAREP以及Facet结合Transformer提取音频模态和视觉模态特征。
$\begin{aligned}&\mathbf{E}_t=\mathrm{BERT}(\mathbf{X}_t;\theta_t^\mathrm{BERT}),\\&\mathbf{E}_m=\text{Transformer}(\mathbf{X}_m;\theta_m^\mathrm{Transformer}),m\in\{a,v\},\end{aligned}$
然后，利用对比学习对齐不同模态。为了将每个单模态表征投射到同一维度上，将其通过一个全连接层。（ $R_m$ 代表每个序列开始的 [cls] token）
$\hat{R}_m=\mathrm{FC}_m(R_m;\theta_m^{\mathrm{FC}}),m\in\{a,v,m\},$
接着在文本-语音模态、文本-视觉模态之间采用监督对比回归方法，来构造一个多模态嵌入空间。样本对构建如下图所示：

锚点-负样本之间的距离大于锚点-正样本之间的距离：
$\mathbb{A}(k)=\{k\neq i,|\boldsymbol{y}_i-\boldsymbol{y}_k|\geq|\boldsymbol{y}_i-\boldsymbol{y}_j|;k\in\{1,2,\ldots,2N\}\}$
基于有监督的对比回归分析，单模态表征 $\hat{R}_{t}$ 和 $\hat{R}_{a}$ 之间的对比学习操作可计算为：
$\mathcal{L}_{ta}^{SupCR}=-\frac1{2N}\sum_{i=1}^{2N}\frac1{2N-1}\sum_{j=1,j\neq i}^{2N}\frac{\exp\left(\hat{R}_{m,i}\cdot\hat{R}_{m,j}/\tau\right)}{\sum_{k\in\mathbb{A}(k)}\exp\left(\hat{R}_{m,i}\cdot\hat{R}_{m,k}/\tau\right)},$
由于不同模态数据存在异质性，对比损失可能无法工作，因此需要为不同模态建立一个共同的子空间。通过构造一个相似性损失函数来实现：
$\mathcal{L}_{ta}^{sim}=\left\|\hat{R}_t-\hat{R}_a\right\|_2^2.$
最后，将相似性损失和对比损失结合起来实现双模态的对齐。
$\mathcal{L}_{ta}=\mathcal{L}_{ta}^{SupCR}+\alpha\mathcal{L}_{ta}^{sim}.$

符号	含义
$m$	文本模态和音频模态
$N$	batch size
$i, j, k$	锚点、正样本和负样本
$\mathbb{A}(k)$	负样本指数集
$\|\cdot\|_2^2$	L2 正则化

3.双模态表征融合

双模态融合过程由三个子层组成：自注意力（Self-Attention）、交叉注意力（CrossAttention）和前馈网络（Feed-Forward）。（每个子层都包含一个残差连接，每层都进行正则化）

首先，将编码文本通过自注意力层：
$\begin{aligned} \mathbf{H}_t& =\operatorname{Add}\&\operatorname{Norm}\left(\operatorname{Self-Attention}(\mathbf{E}_t)\right) \\ &=\operatorname{Add}\&\operatorname{Norm}\left(\operatorname{softmax}\left(\frac{\operatorname{E}_t\mathbf{W}_Q\mathbf{W}_K^\top\mathbf{E}_t^\top}{\sqrt{d_t}}\right)\mathbf{E}_t\mathbf{W}_V)\right) \end{aligned}$
其次，采用交叉注意力将文本与其他模态进行融合：
$\begin{aligned} \mathbf{F}_{mt}& =\text{Add}\&\text{Norm}\left(\text{ Cross-Attention}_{m\to t}(\mathbf{H}_t,\mathbf{E}_m)\right), \\ &=\mathrm{Add}\And\mathrm{Norm}\left(\mathrm{~softmax}\left(\frac{\mathrm{H}_t\mathrm{W}_{Q_t}\mathrm{W}_{K_m}^\top\mathrm{E}_m^\top}{\sqrt{d_t}}\right)\mathrm{E}_m\mathrm{W}_{V_m}\right), \end{aligned}$
然后，通过一个前馈网络层：
$\mathbf{Y}_{mt}=\operatorname{Add}\&\operatorname{Norm}\left(\operatorname{ReLU}(\mathbf{F}_{mt}\mathbf{W}_1+b_1)\mathbf{W}_2+b_2\right),$
获得融合特征 $Y_{mt}$ 后，同样将 [cls] 令牌作为双模态表征 $R_{mt}$ ，然后将它们传递到一个全连接层：
$\hat{R}_{\boldsymbol{mt}}=\mathrm{FC}(R_{\boldsymbol{mt}};\theta_{\boldsymbol{mt}}^{FC})$
最后，同样应用监督对比损失：
$\mathcal{L}_{fusion}=-\frac1{2N}\sum_{i=1}^{2N}\frac1{2N-1}\sum_{j=1,j\neq i}^{2N}\frac{\exp\left(\hat{R}_{mt,i}\cdot\hat{R}_{mt,j}/\tau\right)}{\sum_{k\in\mathbb{A}(k)}\exp\left(\hat{R}_{mt,i}\cdot\hat{R}_{mt,k}/\tau\right)}$

4.情感预测

最后通过一个MLP进行情感分析：
$\boldsymbol{\hat{y}}=\mathrm{MLP}\left(\frac12(R_{at}\oplus R_{vt});\theta^{MLP}\right),$
预测损失：
$\mathcal{L}_\text{task }=\frac1N\sum_{i=1}^N\lvert y_i-\hat{y}_i\rvert,$
总损失：
$\mathcal{L}=\mathcal{L}_{task}+\omega_1(\mathcal{L}_{ta}+\mathcal{L}_{tv})+\omega_2\mathcal{L}_{fusion},$