无需人工标注或 GPT-4o 蒸馏:MIT 提出基于循环一致性的图文对齐方法:Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences
核心问题:教AI更好地“看图说话”和“听话画图”太费钱!
- 想让AI模型生成更贴合图片的文字描述(图生文),或者根据文字描述生成更准确的图片(文生图),需要告诉它什么是“好”的结果。
- 目前主流方法:
- 要么请大量人工标注,费时费力费钱;
- 要么用顶级AI(如GPT-4o)来评判好坏,但这些顶级模型本身很贵、也不公开。
- 目标:找到一种便宜、省事、自动的方法来生成“好坏”信号,从而训练出更好的模型。
MIT的妙招:让AI自己“考”自己(循环一致性)
研究者想出了一个巧妙的“自我验证”闭环机制:
-
“看图说话”好不好?再“听描述画图”验证!
- 给AI一张图片 x,它生成文字描述 y。
- 然后,把这个描述 y 喂给另一个AI(文生图模型),让它根据描述生成一张新图片 x’。
- 关键指标:比较新生成的图片 x’ 和原始图片 x 有多像(用 DreamSim 模型计算相似度)。越像,说明最初的描述 y 越好(因为它准确捕捉了图片信息,能让文生图模型还原出来)。
-
“听话画图”好不好?再“看图说话”验证!
- 给AI一段文字描述 p,它生成一张图片 y。
- 然后,把这张生成的图片 y 喂给另一个AI(图生文模型),让它看图写一个新描述 p’。
- 关键指标:比较新生成的描述 p’ 和原始描述 p 在意思上有多接近(用 SBERT 模型计算语义相似度)。意思越接近,说明最初生成的图片 y 越好(因为它准确表达了文字描述的意思,能让图生文模型理解出来)。
这个“考自己”的分数有什么用?
自动生成“好坏”训练材料 (CyclePrefDB):
-
研究者收集了大量图片和文字描述。
-
对每张图片,让多个不同的图生文模型生成多个候选描述 y1, y2, y3…(有好的也有坏的)。
-
用上面“图生文->文生图”的验证方法,给每个候选描述 y 打个分(基于还原图片与原图的相似度)。
-
然后,比较这些分数:如果描述 y_j 的分数比 y_k 高,就记一条:(图片x, 好的描述y_j, 差的描述y_k)。这就形成了一个自动标注的“偏好三元组”。
-
同理,也可以用“文生图->图生文”验证给文生图模型的输出打分、比较、生成偏好数据。
-
好处:完全自动化,不用人,不用GPT-4o!
训练“自动评分员” (CycleReward)
- 有了海量自动生成的偏好数据 (x, y好, y差)。
- 训练一个专门的模型(基于 BLIP 图像理解模型),叫 CycleReward。
- 任务:输入一个图片 x 和一个描述 y,它能打出一个分数,预测这个 y 作为 x 的描述有多好(基于循环一致性的标准)。
- 怎么训练?
- 让它学习区分偏好数据里的“好描述”和“差描述”。
- 比如,看到 (x, y好, y差),就调整模型参数,让它给 y好 的分数比 y差 高很多。
直接优化模型 (DPO微调)
- 不需要先训练 CycleReward 再筛选结果(那样很慢)。
- 直接用自动生成的偏好数据 (x, y好, y差),对现有的图生文或文生图基础模型进行 DPO(直接偏好优化)微调。
- 效果:微调后的模型在生成时就直接倾向于输出更符合“循环一致性”标准的结果(即更准确的对齐)。省去了生成后筛选的步骤。
效果如何?
图生文模型(如Qwen-VL-Chat)微调后:
- 生成的描述更详细、更少出错(减少幻觉)。
- 甚至在没专门练过的视觉问答任务上也变强了!
- 效果媲美甚至超过用GPT-4V标注的数据训练出来的模型。
文生图模型(如Stable Diffusion 1.5)微调后:
- 生成更复杂的、长文本描述的图片时,效果显著提升。
- 比用人工偏好数据训练的模型还好。
CycleReward评分员:
- 在挑选高质量图像描述任务上,比现有的评分模型(如 ImageReward, VQAScore)准得多。
优点总结
- 完全自给自足 (Self-supervised):不用人工标注,不用GPT-4o等昂贵模型。
- 便宜且可扩展 (Cost-effective & Scalable):可以轻松生成海量训练数据。
- 有效 (Effective):能显著提升模型在图文对齐任务上的表现。
- 通用 (Generalizable):训练出的评分员和微调后的模型能泛化到相关任务(如VQA)。
局限性与挑战
- 依赖“监考老师”的水平:循环一致性依赖于用来“还原”图片或描述的那些模型(T2I, I2T)本身的能力。如果这些“监考老师”水平差或有偏见,产生的信号也会不准或带偏见(比如文生图模型不会画手,就分辨不出描述手的好坏)。
- 可能抑制多样性:对于文生图任务,“循环一致性”要求新描述必须紧扣原意,可能限制了图片的多样性(虽然用了语义相似度,不是死扣字眼)。
- 只能衡量信息保真度:主要评估信息是否准确传递,对于人类更看重的“美不美”、“有没有创意”、“风格对不对”等维度无能为力。
- 数据分布差异:自动生成的数据和真实的人工偏好数据关注点可能不同(比如人工数据更关注艺术性)。
总结
MIT这个方法,让AI通过“看图说话再还原图” 和 “听话画图再还原话” 的方式自我检验,自动产生大量判断图文是否“般配”的信号,从而用极低的成本训练出更“懂”图文关系的AI模型,效果媲美甚至超越花大钱的方法。这是一条经济实惠提升多模态AI能力的新路子!
[1] Densely Captioned Images:https://github.com/facebookresearch/DCI
[2] Stable Diffusion 3:https://stability.ai/news/stable-diffusion-3
[3] DreamSim:https://arxiv.org/abs/2306.09344
[4] ImageReward:https://arxiv.org/abs/2304.05977
[5] BLIP:https://arxiv.org/abs/2201.12086
[6] Direct Preference Optimization:https://arxiv.org/abs/2305.18290