人物搜索的目标是从一组场景图像中定位目标人物,由于大规模变化、姿势/视点变化和遮挡,这极具挑战性。在本文中,我们提出了用于端到端人员搜索的 Cascade Occluded Attention Transformer (COAT)。我们的三阶段级联设计侧重于在第一阶段检测人员,而后期阶段同时逐步完善人员检测和重新识别的表示。在每个阶段,被遮挡的注意力转换器在联合阈值上应用更紧密的交集,迫使网络学习从粗到细的姿势/尺度不变特征。同时,我们计算每个检测的遮挡注意力,以区分一个人的标记与其他人或背景。通过这种方式,我们在令牌级别模拟了其他对象遮挡感兴趣的人的效果。通过全面的实验,我们通过在两个基准数据集上实现最先进的性能来展示我们方法的好处。
CVPR2022《Cascade Transformers for End-to-End Person Search》
最新推荐文章于 2023-11-08 11:48:01 发布