论文主要贡献
提出一种新的框架:Ego-HOI recognition by Probing, Curation and Adaption (EgoPCA)。构建了全面的预训练集,平衡的测试集,以及一个包含了微调策略的baseline。
在Ego-HOI达到了SOTA,并且建立了有效的机制方法。
Code and data are available here.
已有工作
Ego-HOI(Egocentric Hand-Object Interaction)
目前Transformers, visual-language models 效果较好,后续可以学习一下。
Gap:这些工作大多以第三人称视角学习,少有第一人称的。
具体地,第一人称往往仅包含手部,且存在抖动,导致已有工作能否有效迁移到下游任务还是未知数。
大多工作都是Kinetics上预训练的,这个数据集已经被证明了在自我为中心的视频上有较大gap。
为所有下游任务微调一个共享的预训练模型效率低下,也无法适应每个下游任务或基准。
HOI Understanding
EPICKITCHENS
Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, et al. Scaling