Multiview Visual Forecasting and Planning with World Model for Autonomous Driving
论文出处:
结合多视角的图像,时间序列,空间布局,文本等各种信息构造世界模型。预测不同动作自动生成场景做评估,挑选最好的规划
多视角视频生成
-
多视角结合时间数据共同建模,利用扩散模型改造。
-
增加两个层:时间编码层,把图像的扩散模型提升为时间模型。多视角编码层,要共同建模多个视图,不同的视图之间要进行信息的交换,让每个视图的生成风格一致。
-
多视角时间调整:先用单视图条件训练一个标准的扩散模型,然后固定参数,用视频数据对时间层和多视角编码层做微调
-
-
多视角因子分解:分成两类:参考视图(前,左后,右后),拼接视图(左前,右前,后);这两类视图之内是不会有重叠部分的,但是两个类别之间有部分是会重叠的。这样可以基于参考视图来做联合不重叠的部分建模,再结合时间的连贯性,可以结合上下文帧来实现视图生成,生成的多视图一致性强
-
统一条件生成:结合多种形式的信息。
总共四个维度的条件
-
图像:初始上下文帧结合参考视图,ConvNeXt 做编码,从不同的图片提取特征然后连接到一个维度。
-
布局:把3D box, HD map投影到2D透视图中,然后利用图像编码的形式,得到一系列基于投影布局和bev分割信息的位置嵌入
-
文本:遵循扩散模型的惯例,用CLIP作为编码器,得到视图的各种描述信息
-
动作:将一个时间步长内的动作定义成(∆x, ∆y),使用MLP将动作做d维度的嵌入
-
最终统一方式:所有的编码嵌入都是降到了d维度的,把所有的提取到的特征都做一个连接,然后做交叉注意力
端到端的的规划
使用预训练好的模型,输入真实的视角,然后构建决策树的形式,模型生成各个轨迹规划的视频并且结合激励函数的反馈做最佳的选择
决策的激励:1.地图激励(车道上合适的位置,远离路边缘,中心线一致)2.物体激励(安全的行车距离)
进一步从非矢量化表示中获得激励,如GPT-4V去获取图片进一步的特征信息,增加驾驶安全性
模型评估
生成视频的质量:FID:统计生成的图片和真实图片的特征特征分布,用来衡量生成的效果;FVD:用于视频的FID
多视图的一致性:使用KMP关键点匹配,计算当前视图和其两个相邻视图之间匹配关键点的数量和生成数据中匹配点的数量与真实数据中匹配点数量之间的比例
可控性评测:CVT分割背景,3D目标检测,在线地图重建