【深度学习】Speech2Action: Cross-modal Supervision for Action Recognition

Speech2Action: 基于跨模态监督的动作识别

摘要

仅通过对话猜测人类动作是否可能?在这项工作中,我们研究了电影中口语和动作之间的联系。我们注意到电影剧本不仅描述了动作,还包含了角色的对话,因此可以在无需额外监督的情况下学习这种关联。我们训练了一个基于BERT的Speech2Action分类器,用超过一千部电影剧本来预测从转录的语音片段中提取的动作标签。然后我们将该模型应用于一个大型未标注的电影语音片段集(188M语音片段,来自288K电影)。利用该模型的预测结果,我们为超过80万视频片段获得了弱动作标签。通过这些视频片段的训练,我们在标准动作识别基准测试中展示了优越的动作识别性能,而无需使用单个手动标注的动作示例。

1. 引言

在电影中,仅通过听对话,你经常可以大致了解人类活动。例如,句子“看那边的那个点”,表示某人正在指向某物。同样,句子“你好,谢谢你的来电”通常表示某人在接电话。这样的话是否能成为学习良好动作识别模型的有价值信息源?获得大规模人类标注的视频数据集来训练视觉动作识别模型是一个非常具有挑战性的任务。尽管现在已有一些大型数据集(如Kinetics或Moments in Time),这些数据集由单个短片(例如10秒)组成&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值