这项由Skywork AI公司(隶属昆仑科技)的Chris、魏一晨、彭毅、王晓昆等多位研究人员共同完成的研究,发表于2025年6月6日,研究代号为arXiv:2504.16656v4。感兴趣的读者可以通过论文链接https://huggingface.co/Skywork/Skywork-R1V2-38B获取完整模型和研究详情。
人工智能正在经历一场思维方式的革命。当我们使用ChatGPT或其他AI助手时,它们通常会立即给出答案,就像抢答比赛中的选手一样迅速反应。但真正困难的数学题或科学问题,往往需要深思熟虑才能解决。就像学生考试时遇到难题,需要在草稿纸上反复推演一样,AI也需要学会"慢慢思考"。
传统的AI模型追求速度,被称为"快思考"模型。它们就像那些反应敏捷但有时会匆忙下结论的人。而新一代的"慢思考"模型,则更像是那些遇到问题会仔细分析、反复验证的学者。OpenAI的o1模型、谷歌的Gemini-Thinking,以及国内的Kimi-1.5等,都属于这种新型的"慢思考"模型。它们在数学竞赛和科学推理方面的表现,比传统模型提升了30%以上。
然而,当这种"慢思考"策略从纯文本扩展到图文并茂的多模态领域时,问题变得更加复杂。就像一个人既要看图又要理解文字,还要进行复杂推理一样,多模态AI需要同时处理视觉信息和逻辑推理。令人困惑的是,虽然在复杂的视觉推理任务上表现有所提升,但在简单的图像理解任务上却出现了退步,甚至会产生更多的"视觉幻觉"——也就是看到实际不存在的东西。
为了解决这个棘手问题,Skywork AI团队推出了第二代产品R1V2,这是一个能够平衡复杂推理能力和通用理解能力的多模态AI模型。它就像一个既能解高等数学题,又能准确识别日常物品的全能学生。
一、创新的"混合强化学习"训练方法
R1V2的核心创新在于采用了一种全新的"混合强化学习"训练方法。这就像培养一个学生,不仅要教他解题技巧,还要培养他的判断力和自我纠错能力。
传统的AI训练就像让学生模仿老师的解题过程,这种方法被称为"监督微调"。但R1V2完全跳过了这个阶段,因为研究团队发现,过多的模仿反而会削弱AI的原创思维能力,就像学生过分依赖标准答案而失去了独立思考的能力。

最低0.47元/天 解锁文章
5201

被折叠的 条评论
为什么被折叠?



