继12月初推出全量级开源多模态大模型书生・万象2.5(InternVL2.5)后,上海人工智能实验室(上海AI实验室)进一步开源了该模型的后训练算法及训练数据,使各量级的模型性能均得到提升。其中,模型的数学推理能力和OCR能力提升最为明显,分别在MathVista和OCRBench达到了76.5%和907分。
相比有监督微调,基于偏好对齐的后训练算法通过额外引入针对负样本的监督信号,可进一步提升模型的训练效果。然而,多模态领域关于偏好对齐的训练数据和实践经验仍然非常稀缺。为此,研究人员构建并开源了首个大规模多模态偏好对齐数据集MMPR,并基于该数据集提出了面向多个优化目标的混合偏好优化算法,使模型可在生成人类偏好响应的同时,区分每条响应的绝对质量以及两条响应之间的相对质量,从而使模型的训练效果得到大幅提升。

技术报告链接:
https://huggingface.co/papers/2411.10442
代码开源/模型使用方法:
https://github.com/OpenGVLab/InternVL
模型地址:
https://huggingface.co/OpenGVLab/InternVL2_5-78B-MPO
数据地址:
https://huggingface.co/datasets/OpenGVLab/MMPR-v1.1
基于偏好对齐的后训练算法在自然语言处理领域已经获得了广泛的关注,并且基于偏好对齐微调得到的语言模型也表现出更好的有用性和无害性。然而,在多模态领域,现有的主流开源模型依旧依赖于预训练和有监督微调的训练范式。受限于多模态偏好对齐数据和实践经验的缺失,开源社区仍然缺少对偏好对齐的探索与研究。针对这一问题,研究人员在数据层面构建了首个大规模多模态偏好对齐数据集MMPR。研究人员基于该数据集进行了一系列的实验探究,并提出了面向多个优化目标的混合偏好优化算法,要求模型能够在生成人类偏好响应的同时,可以区分每条响应的绝对质量以及两条响应之间的相对质量。
MMPR:首个大规模多模态偏好对齐数据集
为了在可控的成本下构建大规模的高质量多模态偏好数据,研究人员提出了一条高效的数据构建管线。具体而言,研究人员将数据按照是否有明确的标准答案划分为两类:
-
针对有明确标准答案的数据:对于每个问题,通过现有模型采样多个推理路径,将其中最终答案正确的响应作为正样本,最终答案错误或者无法解析出答案的响应作为负样本。在构建偏好数据时,从正样本中选择一条推理路径作为偏好响应,从负样本中选择一条作为拒绝响应。
-
针对没有明确标准答案的数据:研究人员提出了一种简单高效的数据构建管线——DropoutNTK。该管线首先将模型针对图像直接生成的响应作为偏好响应。给定偏好响应,该管线进一步要求模型在不输入图像的情况下,基于偏好响应的前半部份续写后半部份内容,并将由此得到的响应作为拒绝响应。值得注意的是,尽管模型生成的响应并不一定是完美的,但是在不输入图像的前提下续写得到的响应一定会产生更多幻觉,因此这两条响应之间的偏好关系是成立的。


MPO:面向多个优化目标的混合偏好优化算法
为了进一步提升偏好优化算法的有效性,研究人员进一步提出了混合偏好优化算法(Mixed Preference Optimization,MPO),其核心思想在于让模型学习生成人类偏好响应的同时也能够学会识别响应间的相对质量和每个响应的绝对质量。因此,其训练目标可以表示为相对质量损失、绝对质量损失
以及生成损失
的组合:
其中,表示每种损失的权重。
具体而言,该算法选择直接偏好优化损失作为相对质量损失来帮助模型理解不同响应之间的相对质量,其优化目标可以表示为:
其中,表示KL散度约束系数,而
,
,以及
分别表示用户输入、偏好响应以及拒绝响应。策略模型
基于
初始化得到。
此外,该算法通过二项分类优化损失来帮助模型学习每个响应的绝对质量,其优化目标可以表示为:
其中, 和
分别表示针对偏好和拒绝样本的优化目标,这两个优化目标相互独立。他们的计算方式为:
最后,该算法通过有监督微调损失来帮助模型学会生成偏好响应,防止其生成能力退化,该损失可以表示为:
实验结果
在司南评测体系(OpenCompass)中,经过MPO后训练后的书生·万象2.5(InternVL2.5-MPO)在综合性能上取得了明显提升。其中,规模最大的模型在数学推理评测集MathVista上取得了5.9%的性能提升,在文字识别评测集OCRBench上取得了54分的性能提升。
除此之外,在其他主流评测集中,InternVL2.5-MPO也都达到了国际领先水平。