Speech2Action: 基于跨模态监督的动作识别
摘要
仅通过对话猜测人类动作是否可能?在这项工作中,我们研究了电影中口语和动作之间的联系。我们注意到电影剧本不仅描述了动作,还包含了角色的对话,因此可以在无需额外监督的情况下学习这种关联。我们训练了一个基于BERT的Speech2Action分类器,用超过一千部电影剧本来预测从转录的语音片段中提取的动作标签。然后我们将该模型应用于一个大型未标注的电影语音片段集(188M语音片段,来自288K电影)。利用该模型的预测结果,我们为超过80万视频片段获得了弱动作标签。通过这些视频片段的训练,我们在标准动作识别基准测试中展示了优越的动作识别性能,而无需使用单个手动标注的动作示例。
1. 引言
在电影中,仅通过听对话,你经常可以大致了解人类活动。例如,句子“看那边的那个点”,表示某人正在指向某物。同样,句子“你好,谢谢你的来电”通常表示某人在接电话。这样的话是否能成为学习良好动作识别模型的有价值信息源?获得大规模人类标注的视频数据集来训练视觉动作识别模型是一个非常具有挑战性的任务。尽管现在已有一些大型数据集(如Kinetics或Moments in Time),这些数据集由单个短片(例如10秒)组成&