【深度学习】Speech2Action: Cross-modal Supervision for Action Recognition

XD742971636

于 2024-06-30 22:01:29 发布

阅读量1.1k

点赞数 22

分类专栏：深度学习机器学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/x1131230123/article/details/140087384

版权

深度学习机器学习专栏收录该内容

496 篇文章 ¥79.90 ¥99.00

订阅专栏

Speech2Action: 基于跨模态监督的动作识别

摘要

仅通过对话猜测人类动作是否可能？在这项工作中，我们研究了电影中口语和动作之间的联系。我们注意到电影剧本不仅描述了动作，还包含了角色的对话，因此可以在无需额外监督的情况下学习这种关联。我们训练了一个基于BERT的Speech2Action分类器，用超过一千部电影剧本来预测从转录的语音片段中提取的动作标签。然后我们将该模型应用于一个大型未标注的电影语音片段集(188M语音片段，来自288K电影)。利用该模型的预测结果，我们为超过80万视频片段获得了弱动作标签。通过这些视频片段的训练，我们在标准动作识别基准测试中展示了优越的动作识别性能，而无需使用单个手动标注的动作示例。

1. 引言

在电影中，仅通过听对话，你经常可以大致了解人类活动。例如，句子“看那边的那个点”，表示某人正在指向某物。同样，句子“你好，谢谢你的来电”通常表示某人在接电话。这样的话是否能成为学习良好动作识别模型的有价值信息源？获得大规模人类标注的视频数据集来训练视觉动作识别模型是一个非常具有挑战性的任务。尽管现在已有一些大型数据集（如Kinetics或Moments in Time），这些数据集由单个短片（例如10秒）组成&

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。