RGB-D铁路站台监控与场景理解以提升乘客安全
1. 引言
近年来,基于视觉的稳健人体检测和跟踪技术受到了越来越多的关注。这些核心技术是许多以人为中心的应用的关键推动因素,如自动驾驶中的行人安全、公共人群监控以及人机协作机器人等领域。随着算法能力的不断提升,新的公共基准测试集不断涌现,包含了更多的任务、更高的复杂度和更大的数据规模。
然而,RGB - D监控形式的深度数据应用相对较少。这主要是因为:
- 需要额外的深度传感器或立体配置;
- 计算立体深度时计算需求增加;
- 需要创建一个共同的表示(如共同的地平面)来结合RGB和深度数据。
为了解决这些问题,本文提出了一种模块化的RGB - D处理管道,允许探索多种RGB - D组合处理方案。深度信息可以将基于RGB的检测结果映射到3D空间,生成3D边界框,在跟踪过程中提供大小、空间顺序和方向信息,与基于学习的2D检测结果高度互补,有助于更好地进行目标分离、分割和遮挡推理。
本文的主要贡献包括:
- 提出一种基于稀疏流的高效跟踪算法,包含隐式目标关联步骤;
- 提出一种融合方案,将2D和基于深度的检测结果在共同的地平面上进行融合;
- 将算法单元模块化,利用Meshroom作为通用视觉处理管道和可扩展评估框架;
- 引入RailEye3D,一个带有注释的新型RGB - D铁路站台数据集,用于支持RGB - D监控领域的研究。
2. 相关技术现状
2.1 外观表示
近年来,行人检测和跟踪技术从手工制作的表示方法转向了使用深度分布式表示的端到端学习识别概念。早期的检测器如Inte