论文 Self-MM 解读

最新推荐文章于 2025-01-16 20:45:00 发布

Neo的作战室

最新推荐文章于 2025-01-16 20:45:00 发布

阅读量2.5k

点赞数 4

分类专栏： AI算法文章标签：自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_34741466/article/details/115658093

版权

AI算法专栏收录该内容

8 篇文章

订阅专栏

本文提出一种利用自监督策略生成单模态标签的方法，通过权重调整平衡不同任务，着重于模态间差异和一致性信息的学习。BERT作为预训练模型，通过硬共享和权重调整解决了模态间的平衡问题。研究关注的是如何在多模态任务中提取特征并进行情感分析，强调了相对距离值与输出的相关性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning Modality-Specific Representations with Self-SupervisedMulti-Task Learning for Multimodal Sentiment Analysis

摘要

1.设计了一种标签生成模块，获得独立的单模态标签
2.设计权重调整策略，平衡不同子任务之间的学习进程

特征学习中前向引导：捕捉不同模态之间的差异信息
后向引导：附加损失函数作为先验约束，使得模态表征既包含一致信息又包含互补信息

paper的贡献：
1.提出了一个在模态表示和类中心之间的相对距离值，这个值与模态输出成正相关
2.设计了一种基于自监督策略的单模态标签生成模块。此外，还引入了一种新的权重自调整策略来平衡不同的任务损失约束。
3.验证单模态标签生成模块的稳定性和可靠性。

从多模态中学习相同信息，从单模态中学习差异信息。
使用了Bert作为预训练微调模块。
引入单模态子任务来帮助特定模态的特征学习。
采用了硬共享策略，并设计了一种权重调整方法来解决模态间如何平衡的问题。
（硬共享：多个任务的网络共享隐含层
软共享：在损失函数中，加入对每个任务网络参数之间距离等的正则项）

网络结构

avatar

多模态任务中：

文本 —> bert预训练模型
音频 —> librosa ，经过LSTM捕捉时序信息
视频 —> openface等工具，经过LSTM捕捉时序信息
然后将所有的单模态特征拼接起来，映射到一个低维的空间

单模态任务

三个模态任务共享多模态任务中特征表示层
为了减少不同形态之间的维数差异，我们将它们投射到一个新的特征空间中。然后用线性回归得到单模态结果

ULGM 单模态标签生成模块是一个非参数模块

使用L1正则化实现损失函数
$L=\frac{1}{N} \sum_{i}^{N}\left(\left|\hat{y}_{m}^{i}-y_{m}^{i}\right|+\sum_{s}^{\{t, a, v\}} W_{s}^{i} *\left|\hat{y}_{s}^{i}-y_{s}^{(i)}\right|\right)$