阿里通义 | 开源Omni-Emotion 多模态情感分析

最新推荐文章于 2025-11-19 09:46:11 发布

原创最新推荐文章于 2025-11-19 09:46:11 发布 · 1.6k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #语言模型 #机器学习 #自然语言处理

【论文标题】

Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis

摘要

准确理解情感对于人机交互等领域至关重要。

由于情感的复杂性及其多模态性质（例如，情感受面部表情和音频影响），研究人员已转向使用多模态模型而非单模态来理解人类情感。

然而，当前的视频多模态大语言模型（MLLMs）在有效整合音频和识别细微面部微表情方面存在困难。

此外，缺乏详细的情感分析数据集也限制了多模态情感分析的发展。

为解决这些问题，本文引入了一个自动审核数据集和一个人工审核数据集

分别包含 24,137 个粗粒度样本和 3,500 个带有详细情感注释的手动标注样本。

这些数据集使模型能够从不同场景中学习，并更好地泛化到实际应用中。

此外，除了音频建模，还提议将面部编码模型明确集成到现有的先进视频 MLLM 中

使 MLLM 能够有效地统一音频和微妙的面部线索以进行情感理解。

通过在统一空间中对齐这些特征，并在数据集中使用指令调整

OmniEmotion 在情感识别和推理任务中均达到了最先进的性能。

背景

情感分析在教育工具、虚拟形象和人机交互等领域发挥着关键作用。

传统的单模态方法，如基于音频的情感识别、文本情感分析和面部表情识别方法，在单模态情感感知方面各有优势。

但在现实世界中，情感表达往往涉及文本、视觉和听觉信息，传统方法忽略了这些重要线索。

虽然多模态大语言模型取得了显著进展，但在准确识别情感方面仍面临挑战，尤其是在整合音频和识别细微面部表情方面存在不足。

此外，缺乏具有多样数据分布和详细注释的多模态情感指令数据集也是一个重要问题

个体间的标注标准不一致以及不同文化背景下情感表达的差异，都增加了获取情感数据的难度，需要专家进行标注。

贡献

高质量数据集构建：本文开发了一种有效且可扩展的方法，基于现有的情感识别数据集构建了用于情感推理分析和开放词汇情感识别的高质量基准。
整合视频 MLLM 与听觉和面部信息：本文提议将额外的面部和音频编码器与现有的视频 MLLM 模型集成，以更好地进行情感分析，并构建了一个三阶段训练过程，有效地将音频编码器和细粒度面部编码器统一到视频 MLLM 中。
最先进的性能：本文模型在各种情感分析任务中取得了最先进的结果。

技术方案

4.1 扩展视频 MLLM 到音频模态

使用 Whisper-large-v3的音频编码器作为音频编码器，对于给定的配对数据（其中和分别表示音频序列和文本序列）

训练目标是最大化下一个文本标记的概率，公式为

其中和分别表示 LLM 解码器和音频编码器的参数。

概率取决于音频表示和前面的文本序列，旨在将音频特征与语言特征相连接。

具体来说，音频编码器的初始化从 Whisper-large-v3 模型的编码器权重加载

对每个音频数据重采样到 16KHz 的频率，并使用 25ms 的窗口大小和 10ms 的跳步将原始波形转换为 128 通道的梅尔频谱图。

使用步长为 3 的池化层将其减少到标记长度，每个标记大约对应原始音频信号的 60ms 段。

每个音频特征被输入到由两个线性层组成的音频投影仪中，投影仪的输出维度设计为与 LLM 的隐藏嵌入大小相匹配

4.2 细节面部建模

大多数视频 MLLMs 使用通用视觉编码器如 SigLip、CLIP 或 InternVideo2，从视频中提取通用视觉特征，但这些编码器并非专门用于提取与人或面部相关的特征。

本文在 Omni-Emotion MLLM 中引入了一个额外的面部特征编码器，采用 FaceXFormer 的编码器作为面部特征编码器。

对于输入的视频帧，首先提取细粒度的多尺度特征，然后通过一个轻量级的 MLP 融合模块从多尺度特征生成融合的面部表示

最后将转换后的特征连接、展平并输入到由两个线性层组成的面部投影仪中，其输出维度等于 LLM 的隐藏嵌入大小。

4.3 视觉特征融合模块

为了在捕捉细粒度面部细节的同时保持通用知识，本文开发了一个视觉融合模块来整合面部特征和通用视觉特征。

由于这些特征的长度不同，加权求和或沿通道维度连接等方法并不适用。

本文研究了三种方法：在帧级或视频级沿序列长度连接，以及使用交叉注意力层。

最终融合特征作为最终的视觉标记，与其他模态的嵌入相结合并输入到 LLM 解码器中。

4.4 训练细节

Omni-emotion MLLM 基于 LLaVA-OneVision-7B 构建，保留了其通用视觉编码器和投影仪，并引入了额外的面部和音频编码器及相应的投影仪。

为了有效地统一三个编码器的信息，首先将音频和面部特征对齐到原始 MLLM 特征空间

包括音频特征对齐、面部特征对齐和多模态指令调整三个阶段，每个阶段使用不同的数据集和训练参数进行训练。

实验结果

开放词汇情感识别：在 EMER-OV 数据集上，本文模型显著优于 AffectGPT，尤其是在召回率方面。

模型能返回更丰富的情感描述符，如 “Excited”、“Calm”、“Frustration” 等，证实了数据集的质量和多样性以及方法的有效性。

多模态情感推理：在 EMER 数据集上，本文方法在情感相关线索重叠和总结情感状态重叠这两个指标上均取得最高得分，验证了方法的有效性和数据集的质量。

模态分析：在 EMER-OV 中的模态分析表明，听觉模态显著提高了召回率和准确性，“视觉+音频+面部” 的组合实现了最佳平均性能，同时细粒度面部线索对多模态开放词汇情感识别也很重要。

视觉特征融合分析：在 EMER-OV 和 EMER 数据集上对视觉融合模块的分析表明，视频级别的连接在两个设置中均取得最高得分，但由于训练数据与通用视频 MLLM 存在显著差距，仍需进一步探索帧融合方法。

情感识别评估：在 DFEW 和 MAFW 这两个包含音频信息的野外数据集上，本文模型在情感识别性能上优于其他 MLLMs 和现有方法，在 MAFW 数据集上优势明显。

结论

当前的 MLLMs 由于缺乏详细的训练数据，在整合音频和识别面部微表情方面存在困难。

为解决此问题，本文引入了一个包含 24,137 个样本的自审核数据集和 3,500 个带有详细情感注释的手动标注数据集，增强了模型的学习和泛化能力。

本文提出了一种新方法，将音频和面部编码器集成到现有的视频 MLLMs 中，有效地捕捉面部和音频线索。

通过在统一空间中对齐特征并使用指令调整，Omni-Emotion 方法在情感识别和推理方面取得了最先进的结果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述