OmniAlign-V:多模态大模型人类偏好对齐新突破

多模态大模型(MLLMs)在视觉、语言理解等领域展现出强大的能力,但如何让这些模型更好地对齐人类偏好,生成更符合人类认知习惯的内容,仍然是一个核心挑战。近日,上海人工智能实验室联合团队发布了最新研究成果 OmniAlign-V,针对这一问题提出了新的数据集和评测基准。

核心贡献

1.探索多模态训练对对齐能力的影响

探索了语言数据和多模态数据对多模态大语言模型的语言能力以及多模态客观/主观指标的影响,发现:

  • 高质量语言数据的加入并不能增强多模态模型的对齐能力,还会降低通用视觉问答(General VQA )任务上的性能。

2. 提出 OmniAlign-V-SFT 数据集

  • 包含 205k 开放式问题,涵盖知识性、创造性问题,并提供完备的长输出回答。覆盖自然图像和信息图像在内的九种任务。

  • 通过精心设计的 Prompt Pipeline 确保问题质量和多样性。采用 GPT-4o 生成数据,结合多步后处理,提升数据质量。

  • 实验表明,在 LLaVA-Next 框架下,OmniAlign-V-SFT 数据集能够大幅提升模型回复的完备性。同时,在 General VQA 任务(特别是 MMVet/MMMU)上模型效果提升显著。

3. 提出 OmniAlign-V-DPO 数据集

  • 基于 OmniAlign-V-SFT 数据集构建,可进一步提升模型主观能力,优化人类偏好对齐。

  • 经过实验验证,该数据集能够在大规模训练的 MLLMs(如 InternVL2-8B)上激发模型潜力,显著增强其对齐能力。

4. 提出 MM-AlignBench 评测基准

  • 专注于 MLLMs 人类偏好对齐能力评测

  • 包含 252 道人工筛选的开放式问题,确保数据多样性、准确性和合理性。

目前该项工作的论文、代码、SFT数据、DPO数据,Benchmark,Checkpoints、均已完全开源。

Paper:

[2502.18411] OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

GitHub:

htt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值