MME-EMOTION: A HOLISTIC EVALUATION BENCHMARK FOR EMOTIONAL INTELLIGENCE IN MULTIMODAL LARGE LANGUAGE

在这里插入图片描述

一、文章主要内容总结

1. 研究背景

情感计算作为交叉学科,致力于弥合人类情商与机器能力的差距,在教育、医疗、人机交互等领域应用广泛。随着多模态大型语言模型(MLLMs)的兴起,研究重心从情感识别转向情感状态背后线索的可解释性,但当前情感基准存在场景覆盖不足、评估协议不一致等问题,无法清晰衡量MLLMs在真实场景中的情感泛化能力、情感识别准确性及情感触发因素识别能力。

2. 核心贡献:MME-Emotion基准

  • 数据规模与覆盖范围:作为MLLMs领域最大的情商基准,包含6500个精心挑选的视频片段及对应的任务专属问答(QA)对,涵盖27种不同场景,构建了8项情感任务,包括实验室情感识别(ER-Lab)、自然场景情感识别(ER-Wild)、噪声下情感识别(Noise-ER)、细粒度情感识别(FG-ER)、多标签情感识别(ML-ER)、情感分析(SA)、细粒度情感分析(FG-SA)和意图识别(IR)。视频时长分布均衡,平均时长超3.3秒,每个任务至少含500个QA对。
  • 评估套件设计:提出基于多智能体系统框架的整体评估套件,采用“MLLM作为评判者”策略实现自动化评估。通过视觉线索提取、音频线索提取(借助Qwen2-Audio作为音频智能体)、答案步骤分割(以GPT-4.1为
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值