多模态大模型(MLLMs)在视觉、语言理解等领域展现出强大的能力,但如何让这些模型更好地对齐人类偏好,生成更符合人类认知习惯的内容,仍然是一个核心挑战。近日,上海人工智能实验室联合团队发布了最新研究成果 OmniAlign-V,针对这一问题提出了新的数据集和评测基准。
核心贡献
1.探索多模态训练对对齐能力的影响
探索了语言数据和多模态数据对多模态大语言模型的语言能力以及多模态客观/主观指标的影响,发现:
-
高质量语言数据的加入并不能增强多模态模型的对齐能力,还会降低通用视觉问答(General VQA )任务上的性能。
2. 提出 OmniAlign-V-SFT 数据集
-
包含 205k 开放式问题,涵盖知识性、创造性问题,并提供完备的长输出回答。覆盖自然图像和信息图像在内的九种任务。
-
通过精心设计的 Prompt Pipeline 确保问题质量和多样性。采用 GPT-4o 生成数据,结合多步后处理,提升数据质量。
-
实验表明,在 LLaVA-Next 框架下,OmniAlign-V-SFT 数据集能够大幅提升模型回复的完备性。同时,在 General VQA 任务(特别是 MMVet/MMMU)上模型效果提升显著。
3. 提出 OmniAlign-V-DPO 数据集
-
基于 OmniAlign-V-SFT 数据集构建,可进一步提升模型主观能力,优化人类偏好对齐。
-
经过实验验证,该数据集能够在大规模训练的 MLLMs(如 InternVL2-8B)上激发模型潜力,显著增强其对齐能力。
4. 提出 MM-AlignBench 评测基准
-
专注于 MLLMs 人类偏好对齐能力评测
-
包含 252 道人工筛选的开放式问题,确保数据多样性、准确性和合理性。
目前该项工作的论文、代码、SFT数据、DPO数据,Benchmark,Checkpoints、均已完全开源。
Paper:
[2502.18411] OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
GitHub:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



