任务:
调研室内场景下基于单帧图像的3D目标检测的研究情况。
思路:
首先了解相关数据集,benchmark,在数据集的基础上比较不同算法。
1. 室内场景的3D数据集
sunrgbd:室内场景,3D目标检测
scannet:室内场景,3D实例分割(3D实例标签在三个方向上取最小值和最大值,可以得出3D bounding box)
kitti: 道路场景,不是室内
Pix3D: 主要是物体3D模型重建,不是目标检测
ModelNet40: collection of 3D CAD models for objects, 不是真实环境
SUNCG: 用虚拟场景渲染单个视角的彩色深度和语义,主要拿来做基于单帧图像的语义场景修复
NYU Depth Dataset V2: 语义分割
S3DIS: 室内环境的3D扫描模型,偏向语义分割,可用来做目标检测
对比以上这些3D数据集,可直接用于室内3D目标检测的数据集为 sunrgbd 和 scannet,所以用这两个数据集为标准,评价室内3D目标检测的模型性能。
参考文档:
数据集合集介绍:https://www.sohu.com/a/317394935_100007727
2. 一些论文网站
CVPR:https://dblp.uni-trier.de/db/conf/cvpr/index.html
CVPR2020:https://openaccess.thecvf.com/CVPR2020_search
ECCV2020:https://eccv2020.eu/accepted-papers/
ICCV2019:https://openaccess.thecvf.com/ICCV2019
3. 一些博客
https://blog.youkuaiyun.com/weixin_40805392/article/details/105618481 描述了CVPR2020 3D目标检测
https://blog.youkuaiyun.com/weixin_44125273/article/details/106420482 整理了CVPR2020部分论文
4. 比较模型
mAP@0.25
模型 | 代码是否开源 | RGB | SUN RGB-D V1 | ScanNet V2 | 作者,单位 | 来源 |
VoteNet | 是 | without | 57.7% | 58.6% | FaceBook, 斯坦福大学 | ICCV2019 |
VoteNet | 是 | with | 56.3% | FaceBook, 斯坦福大学 | ICCV2019 | |
ImVoteNet | 是 | with | 63.4% | FaceBook, 斯坦福大学 | CVPR2020 | |
MLCVNet | 是 | without | 59.8% | 64.5% | 南京大学, 卡迪夫大学 | CVPR2020 |
Density Based Clustering | 否 | with | 57.2% |
新加坡国立大学 | CVPR2020 | |
否 | with | 64.9% |
新加坡国立大学 | CVPR2020 | ||
HGNet | 否 | without | 61.6% | 61.3% | 浙江大学 | CVPR2020 |
SESS | 是 | without | 61.1% | 62.1% |
新加坡国立大学 | CVPR2020 |
Total3DUnderstanding | 否 | 26.38% (标准不同 mAP@0.15) | 厦门大学, 深圳大数据研究所 | CVPR2020 | ||
Transferable Semi-Supervised | 否 | 40.6% | 新加坡国立大学 | ICCV2019 | ||
Generative Sparse Detection Networks | 否 | 62.84% | 斯坦福大学, NVIDIA | ECCV2020 | ||
H3DNet | 是 | without | 60.1% | 67.2% | 德克萨斯大学奥斯汀分校 | ECCV2020 |
3D Object Detection Using a Learned Loss | 否 | 50.2% | 伦敦大学 | ECCV2020 | ||
是 | 68.7%(mAP@0.25) 43.9%(mAP@0.5)
| 牛津大学, DeepMind | CVPR2019 |