OmniAlign-V：多模态大模型人类偏好对齐新突破

原创

于 2025-03-24 16:46:29 发布 · 1k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型评测 #司南评测 #OpenCompass

多模态大模型（MLLMs）在视觉、语言理解等领域展现出强大的能力，但如何让这些模型更好地对齐人类偏好，生成更符合人类认知习惯的内容，仍然是一个核心挑战。近日，上海人工智能实验室联合团队发布了最新研究成果 OmniAlign-V，针对这一问题提出了新的数据集和评测基准。

核心贡献

1.探索多模态训练对对齐能力的影响

探索了语言数据和多模态数据对多模态大语言模型的语言能力以及多模态客观/主观指标的影响，发现：

高质量语言数据的加入并不能增强多模态模型的对齐能力，还会降低通用视觉问答（General VQA ）任务上的性能。

2. 提出 OmniAlign-V-SFT 数据集

包含 205k 开放式问题，涵盖知识性、创造性问题，并提供完备的长输出回答。覆盖自然图像和信息图像在内的九种任务。
通过精心设计的 Prompt Pipeline 确保问题质量和多样性。采用 GPT-4o 生成数据，结合多步后处理，提升数据质量。
实验表明，在 LLaVA-Next 框架下，OmniAlign-V-SFT 数据集能够大幅提升模型回复的完备性。同时，在 General VQA 任务（特别是 MMVet/MMMU）上模型效果提升显著。

3. 提出 OmniAlign-V-DPO 数据集

基于 OmniAlign-V-SFT 数据集构建，可进一步提升模型主观能力，优化人类偏好对齐。
经过实验验证，该数据集能够在大规模训练的 MLLMs（如 InternVL2-8B）上激发模型潜力，显著增强其对齐能力。

4. 提出 MM-AlignBench 评测基准

专注于 MLLMs 人类偏好对齐能力评测
包含 252 道人工筛选的开放式问题，确保数据多样性、准确性和合理性。

目前该项工作的论文、代码、SFT数据、DPO数据，Benchmark，Checkpoints、均已完全开源。

Paper:

[2502.18411] OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

GitHub:

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。