🔍【论文解读】MCEN:多层信息压缩与文本增强驱动的多模态情感分析新范式
📘 原文标题:Multilevel Information Compression and Textual Information Enhancement for Multimodal Sentiment Analysis
🧠 作者:Yuchen Zhang 等
🗂️ 期刊:Knowledge-Based Systems, 2025
📎 链接:ScienceDirect DOI
一、研究背景 🌈
在多模态情感分析(MSA)中,我们试图从文本(Text)、图像/视频(Visual)以及语音(Audio)等多个模态中融合信息,以更准确地理解人的情绪状态。
尽管近年来已有大量基于Transformer和注意力机制的方法用于多模态建模,但视频级数据的模态冗余与噪声问题、以及模态间语义丰富度不一致的问题,仍未被充分解决。

二、核心贡献 ✨
为此,本文提出了一个新颖的框架:MCEN(Multi-level information Compression and Textual information Enhancement Network)。其关键点如下:
| 模块 | 作用 |
|---|---|
| 🎯 HIC(Hierarchical Information Compression) | 降噪 + 提取多层语义特征(尤其是视觉与音频) |
| 🔗 TIE(Textual Information Enhancement) | 以文本为核心,引导多模态融合 |
| 🧲 CPC Loss(Contrastive Predictive Coding) | 对齐多层跨模态表示,增强信息一致性 |
🔢 模型参数小于 1M,但在多个基准数据集上均取得SOTA效果,做到了轻量 + 强性能的双重目标。
三、模型结构解析 🧩
MCEN整体结构如下图所示:
📌 网络结构图(参考原文 Fig.2):

[Text] ---> BERT ---> x_t (multi-layer)
[Audio] ---> sLSTM ---> x_a ---> HIC ---> f_a^1, f_a^2, f_a^3
[Visual]---> sLSTM ---> x_v ---> HIC ---> f_v^1, f_v^2, f_v^3
for i in [1,2,3]:
TIE( x_t^i , [f_a^i + f_v^i] ) --> H_i
[H1 | H2 | H3] ---> MLP ---> Sentiment Score
模块简要说明:
- HIC 模块:压缩冗余模态,得到 f^i 表示不同语义层次的视觉+音频信息。(重点:跟现在的很多大模型token压缩有相似)
- TIE 模块:用文本表示指导模态融合。
- CPC Loss:引导表示对齐与对比学习,提高一致性。
四、实验结果分析 📊
📌 数据集
- MOSI:英文视频影评(小规模)
- MOSEI:大规模英文情感数据
- CH-SIMS:中文多模态数据
📌 性能对比表(部分)
✅ MOSI/MOSEI结果
| 方法 | MOSI-F1 ↑ | MOSI-MAE ↓ | MOSEI-F1 ↑ | MOSEI-MAE ↓ |
|---|---|---|---|---|
| Self-MM | 85.43 | 0.708 | 84.90 | 0.531 |
| CENet | 85.22 | 0.725 | 86.32 | 0.526 |
| ALMT | 86.47 | 0.683 | 86.66 | 0.526 |
| MCEN | 87.48 | 0.678 | 86.49 | 0.526 |
✅ CH-SIMS结果
| 方法 | F1 ↑ | MAE ↓ | Corr ↑ |
|---|---|---|---|
| Self-MM | 80.44 | 0.425 | 0.595 |
| ALMT | 81.57 | 0.404 | 0.619 |
| MCEN | 82.18 | 0.408 | 0.622 |
五、消融实验 🔬
模块贡献验证
| 设置 | MOSI-F1 | CH-SIMS-F1 |
|---|---|---|
| w/o HIC | 85.52 | 78.81 |
| w/o TIE | 85.85 | 78.07 |
| w/o HIC&TIE | 84.68 | 70.21 |
| w/o CPC Loss | 85.35 | 80.52 |
| Full (MCEN) | 87.48 | 82.18 |
模态组合影响
| 组合 | MAE (↓) | Acc-2 (↑) |
|---|---|---|
| Text only | 0.716 | 85.41 |
| Audio only | 1.422 | 54.73 |
| Video only | 1.424 | 52.44 |
| T+A | 0.736 | 85.67 |
| T+V | 0.731 | 85.28 |
| A+V | 1.368 | 59.76 |
| T+A+V | 0.678 | 87.35 |
六、总结与启示 🧠
MCEN通过:
- 🎯 压缩冗余(HIC)
- 🔗 强化文本引导(TIE)
- 🧲 提升信息一致性(CPC)
实现了轻量化和性能的统一,在多模态情感分析中取得优异成绩。适用于移动端、边缘计算等资源受限场景。
🚀 启示:未来的多模态模型,不仅要“会融合”,更要“懂去噪”“懂引导”。结构越轻,优化越巧。
📮 博主碎碎念
这篇KBS文章结构清晰、思想新颖,是MSA领域轻量级高性能方案的代表作。如果你也在做情感分析、多模态任务,强烈建议复现并学习其设计思路!
欢迎评论/私信/点赞交流下一篇你想看的论文~
5330

被折叠的 条评论
为什么被折叠?



