行人属性“Weakly-supervised Learning of Mid-level Features for Pedestrian Attribute Recognition and Loca”

最新推荐文章于 2024-08-16 08:41:44 发布

cv_family_z

最新推荐文章于 2024-08-16 08:41:44 发布

阅读量3.6k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：行人属性深度学习

本文链接：https://blog.youkuaiyun.com/cv_family_z/article/details/78296925

深度学习同时被 2 个专栏收录

105 篇文章

订阅专栏

行人属性

16 篇文章

订阅专栏

提出一种弱监督行人属性定位框架，利用GoogleNet提取mid-level特征并定位行人属性，解决传统方法难以识别细粒度属性的问题。

不同于多标签学习，这篇论文建立了一个弱监督属性定位框架。基于GoogleNet，设计新的检测层提取mid-level属性特征。不需要bbox属性标记，使用基于最大池化的弱监督目标检测技术训练mid-level层。然后，回归这些检测响应梯度，预测属性标签。最后，对检测层的融合激活图聚类，得到属性的位置和形状。融合的权值由属性及其对应的mid-level特征相关程度估计。在PETA和RAP数据集上实验。

基于CNN的方法行人属性识别方法，一般是抠出行人样本，输入到CNN分类器，输出多个行人属性标签。行人属性预测值得研究的点：1）精细尺度的属性，如“戴眼镜”由于尺度小还比较难识别；2）精细尺度属性在卷积池化过程中有可能被忽略；3）属性的位置变化较大，如“包”的位置；4）裁切出的人体不在图像中间。

考虑到上述困难，论文在属性定位框架中进行属性预测，即弱监督的行人属性定位网络，根据mid-level层属性相关特征的检测结果，得到属性标记，而不是直接从整个人体样本中预测。动机来自实际的和抽象的特征与mid-level语义特征相关，如行人是否带包可以先检测是否有包。

但是全监督的目标检测又不现实，论文使用图像层的属性标记指导弱监督学习，跟据弱监督检测层发掘mid-level语义特征。训练得到WPAL网络后，根据检测器的响应定位属性，估计属性和mid-level特征间相关性强度。然后根据mid-level检测器激活图与权值叠加的特征图估计属性的形状。最后，属性的位置根据激活聚类中心估计。

相关研究
弱监督目标检测方法：Is object localization for free?-weakly-supervised learning with convolutional neural networks。

网络结构
网络结构如下图所示：
这里写图片描述
卷积层来自GoogleNet模型， inception4a/output, inception4d/output and inception5b/output三个分支替换到与卷积层及可变金字塔（FSPP）层连接。FSPP层扮演全局最大池化的角色，机制如下图所示：