概括:
结合三维场景的体素表示和对应的二维图像作为输入, 对三维场景进行物体检测与实例分割。
数据集:
1.真实世界获取的数据集: ScanNet v2
2.人工合成数据集:SUNCG dataset
输入数据表示:
3d:使用RGB-D图像,通过BundleFusion算法重构得到的3d体素表示。在俯视方向将3d数据划分成4.5m*4.5m*2.5m的方块,再用96*96*48的体素块储存一个方块的信息。每个体素的值都是对应位置的TSDF(truncated signed distance field)值。这部分3d数据代表的是输入数据的几何信息。
2d:5张对应位置的RGB图像。分辨率是328*256。选取原则是平均地覆盖到3d区域中的所有物体(selected based on the average voxel-to-pixel coverage of the instances within the region)。
网络结构: