多模态连续维度情感识别

本文探讨了多模态连续维度情感识别的挑战,提出了基于多模态融合的“条件注意融合(CA-fusion)”策略。通过在每个阶段动态关注不同模态并分配权重,该策略在连续情感预测中表现优越。实验表明,CA-fusion在valence预测上优于早期融合,且在视觉特征存在与否的情况下,都能优于单模态预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0. 题目

《Multi-modal Conditional Attention Fusion for Dimensional Emotion Prediction》

《基于多模态条件注意融合机制的多模态情感预测》

1. 研究问题

​ “离散”:数据不可再分,比如:计数(1、2、3…)、分类(A/B/C/D)、等级数据(1/2/3)

​ ”连续“:数据可再分(提高精度可以量出更多位数),比如:身高


​ 情感分析在组成形式上可以分为:单模态 or 多模态,在表现形式上可以分为:离散 or 连续

​ 模态选择:文本、图像、语音

​ 离散的情况:比如对分类情况的【喜、怒、恐】、【arousal(正 or 负)、valence(兴奋 or 平静)】

​ 连续:比如对arousal进行量化:eg:”我喜欢这件衣服,但是它尺寸太大了“,量化后【正:0.2362,负:0.7638】

​ 对单模态的研究相对成熟、在数据集充分的下,一般能达到实验室的理想状况,但是不满足工业环境的需要。我们生活中接触到的信息大多是多模态的,比如:评论(文本+图片),在线直播(文本+视频)、字幕的匹配(文本+音频)。因此解决多模态的融合提高情感

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值