基于文本注意力和姿态引导的多级网络
在当今的计算机视觉和自然语言处理领域,实现图像和文本之间的有效匹配是一个重要的研究方向。本文将详细介绍一种基于文本注意力和姿态引导的多级网络,该网络在人物重识别任务中展现出了出色的性能。
1. 方法
1.1 图像特征提取
在训练阶段,假设数据为 $D = {P_i, T_i} {i = 1}^{N}$,其中 $N$ 表示每一批次中图像 - 文本对的数量,每对图像 - 文本对由人物图像 $P$ 和相应的文本描述 $T$ 组成。
- 语义特征提取 :使用骨干网络(如 ResNet50)提取人物图像的视觉特征,ResNet50 主要由四个残差块组成,不同的残差块可以捕获不同层次的语义信息。对于每个人物图像 $P$,将第三个残差块生成的特征定义为人物图像的低级语义特征图 $f {P}^{l} \in R^{H \times W \times C_1}$,将第四个残差块生成的特征定义为人物图像的高级语义特征图 $f_{P}^{h} \in R^{H \times W \times C_2}$。
- 低级特征表示 :通过全局最大池化层(GMP)得到人物图像视觉语义特征的低级表示 $v_{P}^{l} \in R^{C_1}$,公式如下:
[v_{P}^{l} = GMP(f_{P}^{l})]
- 姿态引导特征 :将人物图像输入图像的 CNN 分支,利用人体的 $M$($M = 17$)个关键点生成对应的 $M$ 个热图。对所有特征向量进行最大池化,并将其连接到人物图像的高级语义
基于文本注意力和姿态引导的多级网络研究
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



