摘要:
1.深度评估和场景稀疏是两个非常重要的计算机场景理解任务。
2.我们用一个级联的cnn来解决了这两个问题(多任务学习问题)。
3.不同于之前的任务,直接优化输入数据,我们的方法提出了一个任务导向预测和提取网络(PAD-Net)
4.先预测一系列的中间辅助任务,然后这些预测结果通过我们的提取模块作为一个多模态输入给我们最后的网络。
5.在级联学习当中,这个中间任务不仅仅作为一个监督去学写更加鲁棒的表现,而且还提供一个多模态的信息给最后的任务
6.实验在两个数据集上进行,分别是NYUD-v2和CityScapes
introduction:
1.多任务学习典型的深度多任务学习方法主要关注最终预测水平,通过采用交叉模式交互来相互完善任务[18,51]
2.或设计更有效的联合优化目标函数[40,21]。
3.然而,同时使用不同的损失函数来学习不同的任务会使网络优化变得复杂,并且通常不容易为所有任务获得良好的泛化能力,因此与仅使用优化相比,这会对某些任务带来更差的性能。 UberNet [22]发现的一项任务。
4.多模态输入数据更有利于提高预测准确度,例如采用深度信息的RGB-D就比仅使用RGB信息的表现要好。
5.采用多模态和语义图作为输入,能够让网络学到更多相关联且共享的信息,如轮廓和表面法线(什么叫表面法线)。
6.所以设计一个怎样的中间辅助任务,能够更好的帮助网络交流和共享不同信息。
7.而其他深度多任务学习模型,如十字绣网[38],Sluice Net [44]和深度关系网[36],只假设单模态数据。