iHOI(submitted to IEEE Trans. on Multimedia)
文章
本文focus在检测social scene images上的human-object interactions(HOIs)。本文的一个出发点是human在与object进行interaction的时候,会根据他们的intention调整注意力和移动身体,因此本文的就在HOI检测中加入了human intention。本文提出的human intention-driven HOI detection架构通过人的身体部件与object的相对距离来建模人的pose,同时用弱监督的方式使用人的gaze(凝视、视线)来知道注意力区域的选择。
iHOI的架构最主要的部分有两个:feature extraction和intention-driven interaction prediction。feature extraction又包括了pose network、gaze network和object detection,前两者都是从其它数据集上迁移学习过来的参数。
Human-object pairwise branch:输入一个human box和object box,希望输出一个能保留它们语义关系的feature embedding。和