GeoSim: Realistic Video Simulation via Geometry-Aware Composition for Self-Driving
动机
视觉仿真是计算机视觉技术在自动驾驶中采用传感器实现工业控制核心技术方案,这样技术的主要任务是测试自动驾驶感知技术和在不同场景下的决策技术,减少人工参与节省和降低难度。
图像仿真的相关工作一般分为图形学成像技术和神经网络特征编码超分对抗生成技术两类。第一种技术成熟可控但是需要人为的操作实现,例如CARLA Simulator,Asset,PresScan相比生成的效果真实性欠缺;第二种技术通常是数据驱动的编解码方法不需要人工直接合成仿真系统,例如Pixel2Pixel,SPADE,GeoSim等
GeoSim系统分为:
(1)感知重建部分:通过自己驾驶数据采集车重建大量的3D场景
(2)仿真合成部分:将重建的3D场景数据插入视频仿真视频场景
存在的技术挑战:
(1)仿真结果与真实世界的差距(Realism Gap)
(2)方法可以扩展人工可以修正(Scalable)
(3)神经网络和图形学相互补充
方法
GeoSim=multi camera+multi sensor+self supervised
使用CNN和PointNet分布将图片和LiDAR特征拼接成一个特征向量;通过图形学的Meanshape+deformation=predictshape分析几何形变量;间接自监督学习然后通过微分的方法渲染生成轮廓。
simulation pipeline场景生成,利用高清地图和成像设备将现实场景生成新的合成场景;渲染弥补处理遮挡和阴影;采用deppfill网络技术实现前后的融合和边缘修复。
实验
结论
实验证明了显式建模和隐式建模的不同的特点,后续工作需要针对行为、汽车、自行车等复杂路况下进行模拟计算分析。