HumanOmniV2团队 投稿
量子位 | 公众号 QbitAI
在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL)在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。
在深入研究现有技术后,发现在当前多模态推理模型中发现现有的推理路径存在两大核心问题:全局上下文理解不足和捷径问题。
全局上下文理解不足: 当模型无法准确识别或错误解读多模态证据和上下文信息时,便会出现此问题,导致给出不正确的答案。
捷径问题: 指模型在处理多模态输入时,忽视了关键线索,未充分考量多模态信息就直接给出答案,从而导致次优或片面的结果
为彻底解决这些痛点,阿里巴巴通义实验室团队推出HumanOmniV2,强调模型必须在对多模态输入全局上下文有清晰理解的基础上进行推理。这种全局性理解能够有效避免模型遗漏关键多模态线索,确保推理过程的全面性和深入性。
相关代码、模型、数据都开源,地址可在文末获取。
效果展示
问题:这两个人是什么关系?
A. 他们想引起人们对该产品的关注。
B. 这两个人是商业伙伴,他们正试图推销他们的产品。
C. 他们在推销另一种产品。
D. 看起来他们刚认识,以便他能在她的节目中展示他的产品。
创新与优势
强制上下文总结与全模态推理
为实现这一目标,要求模型在推理之前,首先在一个标签内输出其对上下文信息的概括。这种强制性的上下文理解能够有效避免模型跳过关键的多模态输入信息,并在随后的推理过程中提供全面的全局背景支持。
多维度奖励机制引导
为了确保模型准确理解多模态上下文信息,引入了上下文奖励 (Context Reward),并与格式奖励 (Format Reward) 和准确性奖励 (Accuracy Reward) 协同作用。上下文奖励通过LLM进行评估,对比模型输出的上下文与参考上下文的一致性,从而引导模型提升上下文理解能力。
复杂逻辑推理能力激励
此外,为激励模型发展更复杂的推理能力,还利用LLM评估其推理过程是否成功融合了多模态信息,并应用了反思、演绎、归纳等高级逻辑分析技术。其中,上下文奖励的计算基于生成文本的上下文部分,而逻辑奖励则关联到生成文本的上下文和推理两部分。
优化的GRPO训练策略
基于Qwen2.5-Omni-Thinker,对GRPO训练方法进行了关键改进,包括引入令牌级损失以克服长序列不平衡、移除问题级归一化项以消除优化偏差,并应用动态KL散度以提升探索能力和训练稳定性,从而全面提升了模型的训练效率、公平性与鲁棒性。
核心方法
在模型设计方面,以Qwen2.5-Omni-Thinker为基础模型,并在此基础上,对GRPO (Group Relative Policy Optimization)的基于最新研究的改进,以实现更高效、更稳定的训练
首先,为了有效应对长序列训练中普遍存在的不平衡问题,引入令牌级损失(Token-level Loss),这种细粒度的损失计算能够确保在处理长样本数据时,模型对每个Token的学习都能得到充分且平衡的优化,避免某些部分因序列过长而被忽视,从而显著提升了训练的效率和质量。
其次,移除了传统的问题级归一化项(Question-level Normalization Term)。经验表明,该归一化项可能导致不同问题在目标函数中拥有差异化的权重,进而引入优化上的难度偏差,影响模型对不同难度的学习效率。通过取消这一项,确保了优化过程对所有问题的一致性,从而促进模型更全面、更公平地学习和理解各类问题。
此外,为了进一步提升模型探索能力并确保训练稳定性,巧妙地引入了动态KL散度(Dynamic KL Divergence)策略。这一机制能够有效避免在训练初期过度限制模型的自由探索空间,充分发挥其潜力;同时,也能防止在训练后期模型行为出现发散,确保训练过程的稳健性。动态KL散度的应用使得模型在整个训练周期内能够进行更充分的策略探索,并显著提升了训练的稳健性。
构建基于全局上下文的强化推理范式:针对现有模型全局上下文理解不足和推理捷径问题,提出了一套创新的推理范式,包括:
强制性结构化响应格式(……),要求模型显式地总结多模态上下文并进行反思性逻辑推理;
LLM驱动的多维奖励机制,为确保模型准确解读多模态上下文信息,引入了由大语言模型判断的上下文奖励(Context Reward),并辅以格式奖励(Format Reward)和准确性奖励(Accuracy Reward)。这使得模型能在生成响应时,更好地对齐人类的意图和偏好。为了提升模型的复杂推理能力,进一步利用LLM评估其推理过程是否成功融合了反思、演绎、归纳等高级逻辑方法与多模态信息,提供逻辑性奖励(Logical Reward)。通过上下文奖励和逻辑奖励(结合因果掩码精确应用)来精确评估和激励模型对多模态上下文的理解以及复杂的逻辑推理能力。
构建高质量数据集与基准
训练MLLMs进行推理极具挑战,主要原因在于缺乏大规模的人工标注推理数据。为此,创新性地构建了一个全模态推理训练数据集,其中包含了图像、视频和音频的理解任务,并融入了丰富的上下文信息,以支持模型在复杂场景下的推理学习。该数据集同时提供了多模态输入的总结和推理路径,适用于模型的冷启动训练和强化学习阶段。
在开发全模态推理模型时面临的另一个挑战是缺乏有效的相关基准来评估其性能。为此,隆重推出了IntentBench,一个创新性的全模态基准,旨在评估模型在复杂场景中理解人类行为和意图的能力。该基准包含633个视频和2,689个相关问题,这些问题紧密关联视频中的听觉和视觉线索,并要求模型对全局上下文、细致观察和复杂社会关系有深刻的理解和推理。与主要侧重于一般感知场景的Daily-Omni 和 WorldSense 相比,IntentBench更专注于评估全模态模型理解和推理复杂人类意图和情感的能力。
实验与结果
HumanOmniV2 在多个基准数据集上取得了突破性成果,它在开源全模态模型中取得了最佳性能,在Daily-Omni上达到58.47%,在WorldSense上达到47.1%,在全新引入的IntentBench上更是高达69.33%。相比当前其他开源全模态模型取得了显著领先的成果。这标志着多模态AI在理解人类复杂意图方面迈出了坚实一步,为未来更智能、更人性化的人工智能应用奠定了基础。
核心贡献总结:
创新性的推理范式: 提出模型在推理之前应先对多模态输入进行上下文总结,旨在解决跳过关键多模态信息和上下文理解不足的问题。同时,通过上下文奖励和逻辑奖励激励模型准确总结上下文并促进复杂推理。
高质量数据集与评测基准: 提供了一个包含多模态输入总结和推理路径的全模态推理训练数据集,适用于冷启动训练和强化学习阶段。此外,还精心策划了一个以人为中心的全模态评估基准IntentBench,它要求模型同时理解视频和音频、全局上下文、复杂的社会关系以及细致的观察。
领先的模型性能: 提出的HumanOmniV2在包括全新IntentBench、Daily-Omni和WorldSense在内的多个全模态基准测试中,相比现有开源全模态方法取得了最佳性能。
github:https://github.com/HumanMLLM/HumanOmniV2
arxiv:https://arxiv.org/abs/2506.21277
modelscope:https://modelscope.cn/models/iic/humanomniv2
huggingface:https://huggingface.co/PhilipC/HumanOmniV2
intentbench:https://huggingface.co/datasets/PhilipC/IntentBench