多模态后训练反常识：长思维链SFT和RL的协同困境

原创

于 2025-08-03 22:05:15 发布 · 483 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #多模态 #大模型 #机器学习 #语言模型 #自然语言处理

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

但华为与香港科大的最新研究发现了一个出人意料的现象：在多模态视觉语言模型（VLM）中，这对组合难以实现协同增益，甚至有时会互相拖后腿。

论文标题：The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
论文地址：https://www.arxiv.org/abs/2507.07562

推动这项研究的一个关键见解是认识到多模态推理评测与纯语言评测存在微妙差异。虽然文本推理任务通常侧重于逻辑要求高的问题，但多模态评测通常包含简单基于感知的问题和复杂的认知推理挑战。作者假设，这种异质性是 Long-CoT SFT 和 RL 在多模态设置中表现出不同现象的核心原因。

为探索各种后训练技术如何影响不同类型问题性能，作者们引入了一个简单有效的难度分类方法，并基于此构建了难度层级细化后的多模态推理榜单数据集（包括新的 MathVision、MathVerse、MathVista、MMMU val 和 MMStar val）。该方法根据基线模型 Qwen2.5-VL-Instruct-7B 在五个数据集的每个问题上 16 次独立运行的成功率，将题目分为五个级别（L1-L5），分别代表从简单到困难：

L1 (简单)：通过率 ≥ 12/16 (75%)
L2 (中等偏易)：8/16 ≤ 通过率 < 12/16 (50-75%)
L3 (中等)：5/16 ≤ 通过率 < 8/16 (31-50%)
L4 (中等偏难)：2/16 ≤ 通过率 < 5/16 (13-31%)
L5 (困难)：通过率 < 2/16 (

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。