论文阅读:《LIP: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》

CVPR 2017 Workshop
数据集:http://hcp.sysu.edu.cn/lip

主要贡献

  • 提出了一个新的large-scale benchmark,以及一个测评服务器用支持进一步的人物解析研究,新的数据集共有50462 张图片,20 个分类标签(19个类别+背景)
  • 通过在新的数据集上的实验,详细分析之前state-of-the-art 的人物解析方法的优势和不足
  • 提出了一个自监督的,基于人体架构化的学习框架,主要是结合了解析结果和人体结构信息,并取得了state-of-the-art 的效果。

亮点

LIP dataset

目前存在的用于人物解析的数据集普遍存在数量过少,类别过于单一,不够复杂全面的问题,因此重新构造一个更复杂,更全面的数据集将能够有效提升解析识别结果。

LIP 数据集有以下几个特点:

  • 数据集的数量是目前最大的,一共有30642 张训练图片,10000 张验证图片,以及10000 张测试图片。
    这里写图片描述

  • 种类是最复杂的,它相比于之前的多数是full-body 的图片,还有足够数量的上半身,下半身,头部缺失,背影图片以及有遮挡的图片,这些都是姿势识别和人物解析的困难之处。
    这里写图片描述

  • 数据集中的图片来源于真实世界中,严重遮挡,多样性的变化以及各种范围的分辨率都使得该数据集具有更加复杂的特点,在训练时增大泛化能力。
    这里写图片描述
人物解析方法分析

论文中主要对比的几个网络框架是FCN-8s,SegNet,DeepLabV2,以及an attention mechanism(Attention)。其中Attention 的效果最好,因此论文也是基于此进行改进的。FCN-8s 和SegNet 主要是在object-level 进行分割,但是对于人物关节点解析这样的细节问题表现的效果不太好,这说明humanparsing 在目前还是一个有待提升的研究课题。

由于LIP 数据集有对人物有比较细致的分类,因此对于头部缺失的图片,之前的检测方法对于头部缺失的图片准确率都比较低,同时对于遮挡的图片效果也比较差。另一方面,对于人物较小部位的解析结果也不太好,例如脚,手这样相对于整个人体来说更加细微的部分。同时,左右区分也是一个很大的问题,左手右手,左脚右脚常常会解析错误。

基于人体结构的框架的提出

总结之前存在的方法会发现问题主要是训练时缺乏人体布局,因此提出了一种novel structure-sensitive supervision framework。

这种基于人体结构的框架主要在修改训练时的loss 函数,之前的loss 函数是和ground truth 做pixel-wise 的类别对比,这里再加上structure loss。结构上主要设置9 种连接结构,即头,上半身,下半身,左胳膊,右胳膊,左腿,右腿,左鞋,右鞋。将深度卷积网络训练出来的heatmap 的人体结构与ground truth 的人体结构求L2 loss,作为Ljoint。
这里写图片描述

最终的loss 是分割loss 和结构化loss 的乘积。
这里写图片描述

其整个框架流程图如下,deep convnet 采用的是Attention 框架。
这里写图片描述

实验结果

论文从多个方面验证了加入人体结构信息对于人物解析准确率有所提升。
在LIP 测试集上Mean accuracy 和mean IOU 有显著提升。
这里写图片描述

各个类别的准确率也有提升
这里写图片描述

对于鞋子的左右的解析也更加准确。
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值