多目标跟踪乃是违规行为识别的前提与基础,只有在视频流中抽取出每一个目标的数据后才能定性去分析该目标的行为,而在复杂场景下的多目标跟踪又是一个极具挑战性的问题。总的来说,多目标跟踪这个领域得益于近来目标检测的研究成果进而取得了快速发展。融合目标检测做跟踪,即tracking-by-detection,是一个非常流行的方法,即在每一帧中使用目标检测器得出检测目标,然后再匹配关联不同帧中的目标得到目标的跟踪轨迹。该处理框架一方面利用高置信度的检测结果(YOLO、SSD等)来防止视频跟踪中的长时跟踪漂移问题,另一方面利用帧间上下文关系做预测(Kalmann滤波、LSTM等)还能处理遮挡等带来的检测误差。总之,检测与预测能相互取长补短,形成冗余的候选框;而目前的各种研究成果则在于如何把预测与检测进行去冗余处理、进行最佳的匹配,形成新的轨迹。其最大的挑战则在于处理目标相似和遭遇检测器不可靠的检测的情况:第一种挑战,目标具有相似的外观特征将会带来错误的关联匹配,解决该类挑战则在于提取各种辨别性的特征如形状、外观等;第二种挑战,检测器输出不可靠的检测,比如目标行人的姿态变换,遮挡等可引起漏检误检等,解决该类挑战则运用概率图模型等融合所有视频帧的检测结果求解一个全局的优化问题来匹配目标的跟踪轨迹,也可只利用之前的帧数据将其转化为更通用更实用的在线处理问题。由于要实际应用于施工场景中,实时性讲师一个重要的考量以及挑战。
1. 目标检测器
基于深度卷积网络的目标检测器近年来涌现出了大量研究成果,其发展经历了region-based、anchor-based和anchor-free的历程。Anchor-free的检测方法目前达到了准确率和效率的最佳平衡。这里介绍一种最新出的检测器,CenterNet(Xingyi Zhou, Dequan Wang, Philipp Krähenbühl,Objects as Points),其检测速度能匹配YOLOv3,准确率能匹配two-stage的检测器,如下图所示:
CenterNet,顾名思义就是将目标框用中心来表示,也即网络最终的输出肯定是一个heat map,其中的一系列峰值点就是潜在目标的中心点。考虑一个3通道的图像I∈RW×H×3I \in R^{W\times H\times 3}I∈RW×H×3,经过一个全卷积的encode-decode网络,最终输出的feature map尺寸为(W/R,H/R,C)(W/R,H/R,C)(W/