主要内容
- 研究背景:相机运动理解对现代视觉技术至关重要,但现有方法存在局限性。经典计算机视觉方法在处理动态场景时难以分离相机运动和场景动态,且无法捕捉相机运动的高级语义;多模态视觉系统虽有类人感知能力,但相机运动理解能力未经充分测试。
- 构建CameraBench
- 设计分类法:与电影摄影师和视觉研究人员合作,构建涵盖相机运动多种类型的统一分类法,包括运动类型、稳定性、平移、旋转、内在变化、以物体为中心的运动等,并通过标注多样视频和纳入反馈不断完善。
- 设计标注框架:采用“先标注后描述”的方法,针对不同运动情况进行标注和描述,确保能精确标注复杂相机运动。
- 收集多样视频:从互联网收集不同类型、视角、拍摄设备和后期效果的视频,并手动分割以进行精确标注。
- 开展人类研究:通过人类研究发现专业经验和培训能显著提高标注准确性,实施严格筛选和培训计划确保大规模标注质量。
- 评估与分析:使用CameraBench评估多种模型,包括SfM/SLAM和VLMs。发现经典SfM/SLAM方法在处理动态或低视差场景时存在困难,