(一)行人属性预测:
基于已经分割出来的人体区域图像,对人的一些属性,包括全局属性(如性别、年龄、民族(几个常见民族))和局部属性(如发型(长发、短发)、是否带帽子、是否背包、上下身颜色、衣服样式(如裙子、短裤)等)进行预测。
为了准确预测属性,采用多任务学习方式。通常各任务间具有互补性,通过不同任务交互能互相促进,加快收敛,减少过拟合。一般任务越多,促进行越强,因为有更多的监督信息,创造了更多的梯度源。
这里对于人体属性预测,采用三个任务,即
l 人体部分分割(头、上身、下身三部分)、
l 属性分类(这里属性分成两类,参见参考论文2)、
l Id分类(假设同一个人的样本有多个)。
要求:
画出网络图(结构可简化);
对之形式化,写出目标函数;
写出训练/学习过程(列出几个关键步骤,举几个关键的推导公式说明一下即可)
参考论文:
[1] Improving Person Re-identification by Attribute and Identity Learning(属性和ID分类)
网址:http://blog.youkuaiyun.com/dhunterao/article/details/70226467
[2] Heterogeneous Face Attribute Estimation A Deep Multi-Task Learning Approach(多属性联合学习,对属性分成两类,分别构造loss函数)
网址:https://www.cnblogs.com/wangxiaocvpr/p/7911056.html
[3] DAP3D-Net: Where, What and How Actions Occur in Videos?
(多任务学习,包含了一个框回归。我们这里对人的头部、上身、下身三个框进行回归)
(二)车的属性预测及分类
输入:车的图像
输出:车型分类,属性分类结果。(姿态分类是辅助信息)
三个任务联合学习:
l 车型分类:公共汽车、卡车、小型货车、轿车等
l 属性分类:假设有几个属性,如颜色、是否有车辆年检标、是否有纸巾盒、是否有摆件挂饰等
l 姿态分类:因摄像机拍摄视角不同,车呈现出几个姿态,比如15度,45度,90度等
要求:对之形式化,写出目标函数;
给出可行的优化方法(文字概述即可,两三句话就行)