一、文章主要内容
本文聚焦大型语言模型(LLMs)在情绪智能(EI)领域的评估与增强,旨在填补当前LLMs在情绪智能维度研究不足的空白。
首先,构建了一个基于心理学理论的四层情绪智能分类体系,涵盖情绪追踪、原因推断、评估和情绪适宜响应生成,为LLMs的情绪智能评估提供了统一框架。
其次,基于该框架打造了EICAP-Bench基准数据集,这是一个多轮对话式的多项选择(MCQ)风格数据集,支持在多语言(英语、阿拉伯语)和多文化场景下评估开源LLMs的情绪智能能力,并对6个主流开源LLMs(LLaMA3(8B)、LLaMA3-Instruct、Gemma(9B)、Gemma-Instruct、Qwen2.5(7B)、Qwen2.5-Instruct)进行评估,发现Qwen2.5-Instruct表现最优,成为后续增强实验的基础模型。
然后,为探究LLMs情绪智能的增强潜力,使用LoRA适配器在UltraChat(UC)数据集(包含英语和阿拉伯语版本的大规模指令微调对话数据)上对Qwen2.5-Base和Qwen2.5-Instruct进行微调。
最后,通过统计分析发现,在五层情绪智能维度中,仅评估(Appraisal)层通过基于UC的微调获得显著提升,且仅在阿拉伯语训练-阿拉伯语评估的场景下有效;其他层无显著提升,部分场景甚至出现性能下降。这表明现有预训练和指令微调范式在赋予LLMs深度情绪推理能力方面存在局限,亟需针对性的数据和建模策略来实现全面的情绪智能对齐。
二、文章创新点
- 提出统一的心理学导向情绪智能分类体系:融合Ekman基础情绪理论、P
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



