我爱计算机视觉 | 普林斯顿大学提出C³:让视频生成模型“知道自己不知道什么“,校准不确定性估计,精准定位幻觉区域

本文来源公众号“我爱计算机视觉”,仅用于学术分享,侵权删,干货满满。

原文链接:https://mp.weixin.qq.com/s/0ULH6RK6aX_kH7qvRbVBzA

生成式视频模型在高保真视频合成方面取得了显著突破,特别是在可控视频生成领域——即根据文本和动作输入条件生成视频。这类模型在指令引导的视频编辑和机器人世界建模等任务中展现出了卓越的能力。然而,尽管性能出色,这些模型常常会产生"幻觉"现象,即生成的未来帧与物理现实不符,这在机器人策略评估和规划等任务中引发了严重的可信度问题。更关键的是,当前最先进的视频模型缺乏评估和表达自身置信度的能力,这严重阻碍了幻觉缓解工作的开展。

来自普林斯顿大学的研究团队提出了方法,这是首个能够训练视频模型"知道自己不知道什么"的方法。该方法能够对可控视频生成模型进行不确定性量化,在子块(subpatch)级别提供密集的置信度估计,精确定位每个生成视频帧中的不确定性区域。

  • 论文标题: World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

  • 论文作者: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar

  • 作者机构: 普林斯顿大学

  • 论文地址: https://arxiv.org/abs/2512.05927

  • 项目主页: https://c-cubed-uq.github.io

  • 代码仓库: https://github.com/irom-princeton/c-cubed

研究背景:视频生成模型的可信度困境

当前的可控视频生成模型虽然能够合成高质量视频,但存在一个致命缺陷:它们不知道自己什么时候会出错。在机器人学习场景中,视频模型被用于预测机器人执行动作后的环境变化,但模型经常会产生与物理规律不符的幻觉内容。这些幻觉可能导致策略评估失败,甚至在实际部署中造成危险。

现有的不确定性量化方法面临多重挑战。传统的蒙特卡洛方法或集成方法需要多次前向传播或多个模型实例,这对于拥有数十亿参数的视频扩散模型来说计算成本过于高昂。此前仅有一项工作尝试量化视频模型的不确定性,但该方法只能为整个视频提供单一置信度估计,无法在帧级别或像素级别提供更细粒度的空间和时间信息。

图片

核心方法:三大创新实现校准的不确定性估计

C³方法的名称来源于"Continuous-scale Calibrated Controllable"(连续尺度校准可控),体现了该方法的三个核心特性。研究团队提出了三项关键创新来赋予视频模型估计自身不确定性的能力。

严格评分规则确保校准性

第一个创新是开发了一个新颖的框架,通过严格正确评分规则(strictly proper scoring rules)作为损失函数来训练视频模型,同时优化准确性校准性。该方法将不确定性量化问题转化为对生成视频准确性的分类问题,避免了对准确性分布做出简化假设(如高斯分布假设)可能带来的归纳偏差。

这些模型均使用严格正确评分规则进行优化,包括Brier评分、交叉熵(CE)和二元交叉熵(BCE)。研究团队在理论上证明,当优化参数收敛到最优解时,预测的置信度能够提供视频扩散模型不确定性的校准度量。

潜空间不确定性估计

第二个创新是直接在视频模型的潜空间估计不确定性,而非在像素空间。这一设计选择带来了多重优势。首先,它规避了像素空间方法相关的高计算成本和训练不稳定性问题。其次,在潜空间操作使得该方法能够无缝应用于广泛的最先进潜空间视频模型架构,无需专门的领域知识或适配工作。

图片

此外,研究团队计算了在子块级别的密集不确定性估计,相比块级别的表示提供了更高分辨率的不确定性量化,能够更精细地定位视频中的不确定区域。

可解释的像素级不确定性可视化

第三个创新是将潜空间的不确定性解码为可解释的像素空间置信度估计,通过时间RGB热图进行直观可视化。研究团队构建了潜空间颜色映射,通过编码单色RGB视频帧(纯红、纯绿、纯蓝)到潜空间,然后在这些基础颜色之间进行插值,将置信度估计映射到潜在RGB视频帧,最后使用视频分词器的解码器映射到像素空间。

图片

生成的不确定性热图包含三个显著区域:

  • 蓝色区域代表模型非常有信心,认为生成的内容是准确的。

  • 红色区域代表模型感到“不确定”或“犹豫”。

  • 绿色区域则代表模型确信自己生成错了。

这种可视化方案提供了高分辨率的不确定性热图,能够识别视频中不可信的区域,帮助用户直观理解模型的置信度分布。

实验验证:多维度评估校准性和可解释性

研究团队在大规模机器人学习数据集上进行了广泛实验,包括Bridge数据集(WidowX 250机器人在24个环境中收集的轨迹)和DROID数据集(Panda机器人在更多样化任务和多视角观察下的轨迹)。

校准性评估:接近完美校准

研究团队使用期望校准误差(ECE)和最大校准误差(MCE)来评估C³的校准性能。实验结果显示,所有三种架构变体都实现了非常低的ECE和相对较低的MCE,表明模型既不过于自信也不过于保守。

图片

可靠性图(reliability diagram)进一步验证了校准性能。在所有置信度区间,模型的预测都紧密跟随完美校准线。值得注意的是,模型在置信度区间表现出一定的保守性,这种在不确定时倾向表达怀疑的行为与安全关键应用的可信度要求高度一致。

图片

跨不同准确性阈值的详细分析显示,C³在所有误差阈值下都保持良好校准,在极低阈值()时表现出一定的欠自信,这实际上是一种安全的设计,能够减少假阴性(将不准确的区域识别为高置信度)带来的潜在危害。

图片

可解释性评估:与人类直觉一致

定性结果显示,视频模型对背景区域的准确性非常自信,但对机器人位置和交互更加不确定,这与人类直觉高度一致。背景通常与真实视频匹配良好,而预测机器人运动更具挑战性,因为涉及未观察到的动力学效应。

图片

定量分析使用Shepherd's Pi相关系数评估置信度估计与潜在视频误差之间的相关性。对于校准良好的模型,预期会观察到负相关。实验结果显示,FSC和CS-BC模型分别获得了和的显著负相关系数(显著性水平99%),证实了置信度估计的有效性。

C³能够捕获多种来源的不确定性:

图片

  • 幻觉定位:精确识别生成视频中插入的伪影,如不存在的物体或变形的物体。

  • 物体交互不确定性:在抓取操作期间,对物体动力学的不确定性体现为被抓物体周围的高不确定性区域。

图片

  • 遮挡处理:捕获因遮挡导致的不确定性,如柜门打开时内部区域的高不确定性。

分布外检测:真实世界验证

研究团队在WidowX 250机器人上进行了真实世界实验,测试C³在分布外(OOD)条件下的性能。他们沿五个维度创建OOD场景:背景、光照、环境杂乱度、目标物体和机器人末端执行器,这些场景与Bridge数据集的训练分布明显不同。

图片

实验结果显示,C³能够准确定位OOD场景中的幻觉(识别为低置信度区域)。例如,面对陌生的背景物体时,模型在接近该物体时对机器人与背景物体之间的动力学产生不确定性;在未见过的光照条件下,模型试图重置场景光照以匹配训练数据分布,C³成功识别了这些人为编辑的像素区域。

图片

可靠性图显示,C³在OOD环境中仍然保持良好校准,ECE和MCE分别为和,与标称条件下的性能相比仅有很小的下降。

DROID数据集上的泛化能力

在更多样化的DROID数据集上,C³继续展现出优异性能。该数据集涵盖更广泛的任务和环境,支持多视角相机输入,且使用不同的机器人平台(Panda机器人 vs. WidowX机器人)。

图片

实验结果显示,C³在DROID数据集上实现了接近完美的校准,ECE和MCE分别为和。置信度估计与潜在视频误差之间的负相关系数为(显著性水平超过99%),进一步证实了方法的可解释性。

图片

可视化结果表明,尽管多视角视频生成的质量有所下降,C³仍然能够产生可解释的、校准良好的不确定性估计,在每个相机视图中精确定位非置信区域,包括机器人夹爪的幻觉变形和腕部相机视图中的模糊背景。

写在最后

C³为可控视频生成领域带来了重要的突破,首次使视频模型具备了"知道自己不知道什么"的能力。通过严格正确评分规则、潜空间不确定性估计和可解释的像素级可视化,该方法实现了校准良好的置信度预测,能够精确定位幻觉并有效检测分布外输入。

研究团队已经开源了代码,感兴趣的读者可以访问项目主页和代码仓库进行进一步探索。

  • https://github.com/irom-princeton/c-cubed

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值