论文翻译：Deep Occlusion Reasoning for Multi-Camera Multi-Target Detection

最新推荐文章于 2024-02-08 23:32:15 发布

scut_salmon

最新推荐文章于 2024-02-08 23:32:15 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：多视角匹配文章标签：多视角检测论文翻译

本文链接：https://blog.youkuaiyun.com/scut_salmon/article/details/78944570

本文档翻译自ICCV2017的一篇论文，探讨了如何利用深度学习解决多摄像机环境下的多目标检测问题，特别关注了深度单视图检测、多摄像头行人检测以及结合卷积神经网络（CNNs）和条件随机场（CRFs）的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：ICCV2017

Abstract

单个2D图像中的人物检测近年来已经得到大大改善。然而，这一进展很少渗透到多摄像机多人追踪算法中，当场景变得非常拥挤时，其检测性能仍然严重恶化。在本论文中，我们引入了一个新的架构，结合了卷积神经网络和条件随机场来明确地模拟这些模糊。其中一个关键要素是高阶CRF术语，模拟潜在的阻塞，并且即使在许多人在场的情况下，我们的方法仍然具有鲁棒性。我们的模型是端到端的训练，我们证明它在挑战性的场景上胜过了几种最先进的算法。

1. Introduction

多摄像机多目标跟踪（MCMT）算法在复杂环境中追踪人物已经取得了一定的效果。在深度学习出现之前，一些最有效的方法依赖于简单的背景减除、几何、稀疏性约束以及遮挡推理[12,6,1]。鉴于背景减除的有限区分能力，只要场景中没有太多人，他们的工作就非常出色。然而，随着人员密度的增加，它们的性能下降，使得背景减法作为输入的信息量越来越少。
从那之后，基于深度学习的单镜头人物检测算法[23,19,28]已经成为最有效的算法[28]。然而，这些优秀的算法很少被用于MCMT。近期的一些算法，如[27]，试图通过首先检测单个图像中的人，将检测映射到共同的参考帧中，并最终将它们对应以实现3D定位并消除误报。如图1所示，出于两个原因，这很容易出错。首先，参考帧中的映射是不准确的，特别是当二维检测器没有被专门训练时。其次，映射之前通常对2D检测器的输出进行非最大抑制(NMS)，这没有考虑使用多相机的几何结构来解决歧义问题。