
一、文章主要内容总结
1. 研究背景
情感计算作为交叉学科,致力于弥合人类情商与机器能力的差距,在教育、医疗、人机交互等领域应用广泛。随着多模态大型语言模型(MLLMs)的兴起,研究重心从情感识别转向情感状态背后线索的可解释性,但当前情感基准存在场景覆盖不足、评估协议不一致等问题,无法清晰衡量MLLMs在真实场景中的情感泛化能力、情感识别准确性及情感触发因素识别能力。
2. 核心贡献:MME-Emotion基准
- 数据规模与覆盖范围:作为MLLMs领域最大的情商基准,包含6500个精心挑选的视频片段及对应的任务专属问答(QA)对,涵盖27种不同场景,构建了8项情感任务,包括实验室情感识别(ER-Lab)、自然场景情感识别(ER-Wild)、噪声下情感识别(Noise-ER)、细粒度情感识别(FG-ER)、多标签情感识别(ML-ER)、情感分析(SA)、细粒度情感分析(FG-SA)和意图识别(IR)。视频时长分布均衡,平均时长超3.3秒,每个任务至少含500个QA对。
- 评估套件设计:提出基于多智能体系统框架的整体评估套件,采用“MLLM作为评判者”策略实现自动化评估。通过视觉线索提取、音频线索提取(借助Qwen2-Audio作为音频智能体)、答案步骤分割(以GPT-4.1为

订阅专栏 解锁全文
2461

被折叠的 条评论
为什么被折叠?



