Person Search一些内容笔记

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这篇介绍看::
https://zhuanlan.zhihu.com/p/533989932

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
作者:陈狄
链接:https://www.zhihu.com/question/68584669/answer/326110383

从任务的角度来看,两者最主要的区别如下:
行人再识别:给定一张切好块的行人图像 (probe image, 即图像大部分内容只包含这个人), 从一大堆切好块的图像 (gallery images) 中找到跟probe image中同一身份的人的图像。这些图像通常是由不同摄像头拍摄的不连续帧。
行人跟踪:给定一张切好块的行人图像 (probe image), 从一段全景视频 (panorama track, 视野中只有一小部分是这个行人) 中找到 probe 所在的位置。这段全景视频是由单个摄像头拍摄的连续帧。

在这里插入图片描述

行人再识别(左)与行人跟踪(右)
在视频监控领域,我们的最终目标是要做到多目标跨摄像头跟踪 (Multi-target Multi-camera Tracking, 简称MTMC Tracking). 而行人再识别和行人跟踪都是为了达到这个最终目标的子任务。

在这里插入图片描述
从行人再识别 (Re-ID) 到跨时段跨摄像头跟踪 (MTMC Tracking)
简单画了个图~ 如上,Re-ID 在图中的第三象限,处理的是静态图像,并且是已经切好块的patch.
然而在实际应用中,摄像头拍摄到的都是全景图像,于是就需要加入行人检测 (Pedestrian Detection) 技术,从全景图像中找到行人的位置,再将包含行人的图像块切出来。此时就形成了位于第二象限的新任务:行人搜索 (Person Search).
行人搜索处理的对象依然是静态图像,在实际应用中摄像头拍摄到的通常是动态的视频。如果能将时序信息 (Temporal Information) 利用起来,加上行人跟踪 (Tracking) 技术,特别是 Tracking by Detection 技术,就能大致实现位于第一象限的最终目标 MTMC Tracking.
另一方面,在 Re-ID 的基础上,如果不考虑行人检测,直接将时序信息利用起来,就形成了位于第四象限的任务:基于视频的行人再识别 (Video-based Re-ID), 有时也被称作 Multi-shot Re-ID. 同样地,将这个任务扩展到全景视频上也能够达到最终目标。
目前大量的工作都集中在第三象限的 Re-ID 上,相比之下 Person Search 和 Video-based Re-ID 的工作就少了很多。直接解决 MTMC Tracking 的工作更是少之又少。各位同僚们一起努力吧~

重识别关注单个bounding box直接的匹配
跟踪 (multi-target multi-camera tracking)则更加复杂:需要现在视频的每帧中,找到目标可能出现的位置(detection),之后估计目标之间的相似度(similarity estimation),最后结合数据(data association)。这是一套标准的tracking-by-detection流程。

行人搜索:
https://zhuanlan.zhihu.com/p/39282286
这个内容介绍的也很好
在这里插入图片描述
Person Search 处理的对象中,probe image 与 Re-ID 一样,依然是切好块的图像;而 gallery image 变成了未切块的全景图像,也就是一般相机拍出来的未经过处理的图像。一张全景图像中通常包含了多个行人,如果要将已有的 Re-ID 技术用起来的话,那就得事先找到各个行人在全景图像中的位置。因此,Person Search = Pedestrian Detection + Person Re-ID.
在这里插入图片描述
在这里插入图片描述
detector 关注的是行人之间的共性,比如人体轮廓。
Re-ID 模型关注的是行人之间的个性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

### 寻找与Person实体相关的LLM模型或资源 为了找到与Person实体相关的大型语言模型(LLM)或相关资源,可以从以下几个方面入手: #### 1. **基于开源社区的探索** 许多开源项目提供了针对特定领域优化的语言模型。例如,在Llama系列中,通过微调可以实现对Person实体更精确的理解和处理[^1]。具体来说,可以通过以下方法获取适合的模型: - 使用Hugging Face Model Hub搜索带有`person`标签或者专注于命名实体识别(NER)的任务模型。 - 探索专门用于人物分析的预训练模型,比如BioBERT、SciBERT等变体,这些可能已经经过调整以更好地理解个人身份。 #### 2. **定制化微调** 如果现有模型无法完全满足需求,则可考虑利用公开可用的数据集来进一步训练基础模型。例如,采用标注好的包含大量关于人的描述信息作为输入数据来进行fine-tuning操作。此过程中需要注意的是如何有效保存并应用已有的知识结构而不丢失泛化能力。 #### 3. **研究支持和服务平台** 对于那些希望深入了解背后机制以及寻求更多技术支持的研究人员而言,还可以联系专业的咨询服务团队获得更为详细的解答和支持[^2]。他们能够提供有关最佳实践案例分享和技术难题解决建议等方面的信息。 以下是Python脚本示例展示如何加载一个预先存在的transformer架构并通过自定义语料库对其进行再加工的过程: ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification import torch tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased") def fine_tune_model(training_data_path): # 加载本地文件中的训练样本... pass # 假设我们已经有了准备完毕后的dataset对象 training_dataset = ... optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5) for epoch in range(epochs): for batch in training_loader: outputs = model(**batch) loss = outputs.loss loss.backward() optimizer.step() optimizer.zero_grad() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zqx951102

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值