项目地址:GitHub - om-ai-lab/VLM-R1: Solve Visual Understanding with Reinforced VLMs
最近做毕设,看到VLM-R1项目,一个有趣的现象:在Grounding任务中,GRPO训练的模型不仅展现出更稳定的训练曲线,其域外泛化能力更是远超传统SFT方法。这种差异在OCR等视觉-语言交叉任务中尤为显著。在追求大模型垂直领域落地的道路上,我们是否过度依赖了监督式微调?强化学习的引入究竟带来了什么改变?
我自己也试过用QwenVL2.5去做类似于文档Grounding的尝试,不得不说在训练的那些数据集/验证集上表现不错。换一个场景的文档立马露馅。如果文档识别和还原做不到泛化,那么我认为没什么意义。就像最近的olmOCR,说是效果很好,推理很快,在250000张图片SFT已经是可以的数字了。我尝试下来,中文泛化效果堪忧,至少我手里的数据效果很差(但你就说快不快吧)。
监督微调(SFT)学得有些过头。以OCR任务为例,当我们在特定数据集(如规范扫描文档)上进行微调时,模型会迅速掌握该场景下的文字、Box确切分布。但这种学习方式存在两个致命弱点:
数据分布的隐形镣铐:模型过于关注学习标注数据中的确定性映射,遇到其他目标或其他背景时,如同突然切换语言的翻译官,陷入迷茫。在目标定位任务这里尤其严重。
误差传递的恶性循环:在自回归生成过程中,单个字符识别错误会像多米诺骨牌般影响后续预测,这种现象在域外数据中呈倍放大。在我SFT的例子看来,歪一个坐标框,后面的多半跟着歪。
<
最低0.47元/天 解锁文章
528

被折叠的 条评论
为什么被折叠?



