OmniDrive-R1:基于强化学习的交错多模态思维链构建可信赖的视觉-语言自动驾驶系统
25年12月来自上海科技大学、清华、同济、上海交大、旷视科技和迈驰智行的论文“OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving”。
在自动驾驶(AD)等安全关键领域部署视觉-语言模型(VLM)面临着严重的可靠性挑战,其中最显著的问题是目标幻觉。这种故障源于它们依赖于缺乏实际依据的基于文本思维链(CoT)推


