【论文解读】MCEN:多层信息压缩与文本增强驱动的多模态情感分析新范式

🔍【论文解读】MCEN:多层信息压缩与文本增强驱动的多模态情感分析新范式

📘 原文标题:Multilevel Information Compression and Textual Information Enhancement for Multimodal Sentiment Analysis
🧠 作者:Yuchen Zhang 等
🗂️ 期刊:Knowledge-Based Systems, 2025
📎 链接ScienceDirect DOI


一、研究背景 🌈

在多模态情感分析(MSA)中,我们试图从文本(Text)、图像/视频(Visual)以及语音(Audio)等多个模态中融合信息,以更准确地理解人的情绪状态。

尽管近年来已有大量基于Transformer和注意力机制的方法用于多模态建模,但视频级数据的模态冗余与噪声问题、以及模态间语义丰富度不一致的问题,仍未被充分解决。


在这里插入图片描述

二、核心贡献 ✨

为此,本文提出了一个新颖的框架:MCEN(Multi-level information Compression and Textual information Enhancement Network)。其关键点如下:

模块作用
🎯 HIC(Hierarchical Information Compression)降噪 + 提取多层语义特征(尤其是视觉与音频)
🔗 TIE(Textual Information Enhancement)以文本为核心,引导多模态融合
🧲 CPC Loss(Contrastive Predictive Coding)对齐多层跨模态表示,增强信息一致性

🔢 模型参数小于 1M,但在多个基准数据集上均取得SOTA效果,做到了轻量 + 强性能的双重目标。


三、模型结构解析 🧩

MCEN整体结构如下图所示:

📌 网络结构图(参考原文 Fig.2):
在这里插入图片描述

[Text]  ---> BERT ---> x_t (multi-layer)
[Audio] ---> sLSTM ---> x_a ---> HIC ---> f_a^1, f_a^2, f_a^3
[Visual]---> sLSTM ---> x_v ---> HIC ---> f_v^1, f_v^2, f_v^3

for i in [1,2,3]:
    TIE( x_t^i , [f_a^i + f_v^i] ) --> H_i

[H1 | H2 | H3] ---> MLP ---> Sentiment Score

模块简要说明:

  • HIC 模块:压缩冗余模态,得到 f^i 表示不同语义层次的视觉+音频信息。(重点:跟现在的很多大模型token压缩有相似)
  • TIE 模块:用文本表示指导模态融合。
  • CPC Loss:引导表示对齐与对比学习,提高一致性。

四、实验结果分析 📊

📌 数据集

  • MOSI:英文视频影评(小规模)
  • MOSEI:大规模英文情感数据
  • CH-SIMS:中文多模态数据

📌 性能对比表(部分)

✅ MOSI/MOSEI结果
方法MOSI-F1 ↑MOSI-MAE ↓MOSEI-F1 ↑MOSEI-MAE ↓
Self-MM85.430.70884.900.531
CENet85.220.72586.320.526
ALMT86.470.68386.660.526
MCEN87.480.67886.490.526
✅ CH-SIMS结果
方法F1 ↑MAE ↓Corr ↑
Self-MM80.440.4250.595
ALMT81.570.4040.619
MCEN82.180.4080.622

五、消融实验 🔬

模块贡献验证

设置MOSI-F1CH-SIMS-F1
w/o HIC85.5278.81
w/o TIE85.8578.07
w/o HIC&TIE84.6870.21
w/o CPC Loss85.3580.52
Full (MCEN)87.4882.18

模态组合影响

组合MAE (↓)Acc-2 (↑)
Text only0.71685.41
Audio only1.42254.73
Video only1.42452.44
T+A0.73685.67
T+V0.73185.28
A+V1.36859.76
T+A+V0.67887.35

六、总结与启示 🧠

MCEN通过:

  • 🎯 压缩冗余(HIC)
  • 🔗 强化文本引导(TIE)
  • 🧲 提升信息一致性(CPC)

实现了轻量化和性能的统一,在多模态情感分析中取得优异成绩。适用于移动端、边缘计算等资源受限场景。

🚀 启示:未来的多模态模型,不仅要“会融合”,更要“懂去噪”“懂引导”。结构越轻,优化越巧。


📮 博主碎碎念

这篇KBS文章结构清晰、思想新颖,是MSA领域轻量级高性能方案的代表作。如果你也在做情感分析、多模态任务,强烈建议复现并学习其设计思路!

欢迎评论/私信/点赞交流下一篇你想看的论文~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值