Person Search一些内容笔记

置顶 zqx951102

已于 2022-11-09 15:36:34 修改

阅读量1.2k

点赞数 1

分类专栏：算法论文深度学习文章标签：人工智能深度学习计算机视觉

于 2022-11-09 10:59:02 首次发布

本文链接：https://blog.youkuaiyun.com/zqx951102/article/details/127764923

版权

深度学习同时被 3 个专栏收录

129 篇文章

订阅专栏

论文

48 篇文章

订阅专栏

算法

32 篇文章

订阅专栏

在这里插入图片描述

这篇介绍看：：
https://zhuanlan.zhihu.com/p/533989932

在这里插入图片描述

在这里插入图片描述
作者：陈狄
链接：https://www.zhihu.com/question/68584669/answer/326110383

从任务的角度来看，两者最主要的区别如下：
行人再识别：给定一张切好块的行人图像 (probe image, 即图像大部分内容只包含这个人), 从一大堆切好块的图像 (gallery images) 中找到跟probe image中同一身份的人的图像。这些图像通常是由不同摄像头拍摄的不连续帧。
行人跟踪：给定一张切好块的行人图像 (probe image), 从一段全景视频 (panorama track, 视野中只有一小部分是这个行人) 中找到 probe 所在的位置。这段全景视频是由单个摄像头拍摄的连续帧。

在这里插入图片描述

行人再识别（左）与行人跟踪（右）
在视频监控领域，我们的最终目标是要做到多目标跨摄像头跟踪 (Multi-target Multi-camera Tracking, 简称MTMC Tracking). 而行人再识别和行人跟踪都是为了达到这个最终目标的子任务。

在这里插入图片描述
从行人再识别 (Re-ID) 到跨时段跨摄像头跟踪 (MTMC Tracking)
简单画了个图~ 如上，Re-ID 在图中的第三象限，处理的是静态图像，并且是已经切好块的patch.
然而在实际应用中，摄像头拍摄到的都是全景图像，于是就需要加入行人检测 (Pedestrian Detection) 技术，从全景图像中找到行人的位置，再将包含行人的图像块切出来。此时就形成了位于第二象限的新任务：行人搜索 (Person Search).
行人搜索处理的对象依然是静态图像，在实际应用中摄像头拍摄到的通常是动态的视频。如果能将时序信息 (Temporal Information) 利用起来，加上行人跟踪 (Tracking) 技术，特别是 Tracking by Detection 技术，就能大致实现位于第一象限的最终目标 MTMC Tracking.
另一方面，在 Re-ID 的基础上，如果不考虑行人检测，直接将时序信息利用起来，就形成了位于第四象限的任务：基于视频的行人再识别 (Video-based Re-ID), 有时也被称作 Multi-shot Re-ID. 同样地，将这个任务扩展到全景视频上也能够达到最终目标。
目前大量的工作都集中在第三象限的 Re-ID 上，相比之下 Person Search 和 Video-based Re-ID 的工作就少了很多。直接解决 MTMC Tracking 的工作更是少之又少。各位同僚们一起努力吧~

重识别关注单个bounding box直接的匹配
跟踪 (multi-target multi-camera tracking)则更加复杂：需要现在视频的每帧中，找到目标可能出现的位置（detection），之后估计目标之间的相似度（similarity estimation），最后结合数据（data association）。这是一套标准的tracking-by-detection流程。

行人搜索：
https://zhuanlan.zhihu.com/p/39282286
这个内容介绍的也很好
在这里插入图片描述
Person Search 处理的对象中，probe image 与 Re-ID 一样，依然是切好块的图像；而 gallery image 变成了未切块的全景图像，也就是一般相机拍出来的未经过处理的图像。一张全景图像中通常包含了多个行人，如果要将已有的 Re-ID 技术用起来的话，那就得事先找到各个行人在全景图像中的位置。因此，Person Search = Pedestrian Detection + Person Re-ID.
在这里插入图片描述

detector 关注的是行人之间的共性，比如人体轮廓。
Re-ID 模型关注的是行人之间的个性。