我们提出了用于端到端人员搜索的级联遮挡注意transformer(Cascade Occluded Attention Transformer) 。三阶段级联设计侧重于在第一阶段检测人员,而在随后的阶段同时逐步完善人员检测和重新识别的表示。在每个阶段,被遮挡的注意力变换器在联合阈值上应用更紧密的交集,迫使网络学习从粗到细的姿势/比例不变特征。同时,计算每个检测的遮挡注意力,以区分一个人的标标志或背景。
目录
引言
行人检索目的是从一组场景图像中定位出特定的人。目前存在两步和一步的方法。
两步的方法通常是先检测,然后再进行重识别任务;
一步的方法是一种多任务的端到端框架,同时检测和重识别;
存在的挑战:
1:行人检测主要是学习特征,以便于从背景中区分行人。行人重识别是区分人与人之间的差异性。目前存在的方法如 行人检测任务优先 和 重识别任务优先 (该论文的阅读笔记)通常分配不同的优先等级,这些方法不好平衡两个子任务。
2:尺度和姿态变化使得重识别具有一定难度;特征金字塔和可变形卷积可以解决此类问题,但是特征融合策略易引入噪声;
3:遮挡或模糊造成的难点问题;
解决:
we propose a new Cascade Occluded Attention Transformer (COAT) for end-to-end person search.