Skywork AI的多模态推理新突破：让AI像人类一样“慢慢思考“解决复杂问题

最新推荐文章于 2025-12-20 19:32:34 发布

原创

最新推荐文章于 2025-12-20 19:32:34 发布 · 429 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

这项由Skywork AI公司（隶属昆仑科技）的Chris、魏一晨、彭毅、王晓昆等多位研究人员共同完成的研究，发表于2025年6月6日，研究代号为arXiv:2504.16656v4。感兴趣的读者可以通过论文链接https://huggingface.co/Skywork/Skywork-R1V2-38B获取完整模型和研究详情。

人工智能正在经历一场思维方式的革命。当我们使用ChatGPT或其他AI助手时，它们通常会立即给出答案，就像抢答比赛中的选手一样迅速反应。但真正困难的数学题或科学问题，往往需要深思熟虑才能解决。就像学生考试时遇到难题，需要在草稿纸上反复推演一样，AI也需要学会"慢慢思考"。

传统的AI模型追求速度，被称为"快思考"模型。它们就像那些反应敏捷但有时会匆忙下结论的人。而新一代的"慢思考"模型，则更像是那些遇到问题会仔细分析、反复验证的学者。OpenAI的o1模型、谷歌的Gemini-Thinking，以及国内的Kimi-1.5等，都属于这种新型的"慢思考"模型。它们在数学竞赛和科学推理方面的表现，比传统模型提升了30%以上。

然而，当这种"慢思考"策略从纯文本扩展到图文并茂的多模态领域时，问题变得更加复杂。就像一个人既要看图又要理解文字，还要进行复杂推理一样，多模态AI需要同时处理视觉信息和逻辑推理。令人困惑的是，虽然在复杂的视觉推理任务上表现有所提升，但在简单的图像理解任务上却出现了退步，甚至会产生更多的"视觉幻觉"——也就是看到实际不存在的东西。

为了解决这个棘手问题，Skywork AI团队推出了第二代产品R1V2，这是一个能够平衡复杂推理能力和通用理解能力的多模态AI模型。它就像一个既能解高等数学题，又能准确识别日常物品的全能学生。

一、创新的"混合强化学习"训练方法

R1V2的核心创新在于采用了一种全新的"混合强化学习"训练方法。这就像培养一个学生，不仅要教他解题技巧，还要培养他的判断力和自我纠错能力。

传统的AI训练就像让学生模仿老师的解题过程，这种方法被称为"监督微调"。但R1V2完全跳过了这个阶段，因为研究团队发现，过多的模仿反而会削弱AI的原创思维能力，就像学生过分依赖标准答案而失去了独立思考的能力。