动作识别——Multi-Model Domain Adaptation for Fine-Grained Action Recognition——CVPR2020 oral

本文探讨了细粒度动作识别领域的挑战,特别是环境偏见问题,提出了利用多模态自监督和模态对抗训练的解决方案。通过引入一种新的数据集,文章强调了未来工作在音频模态上的潜在研究方向。
部署运行你感兴趣的模型镜像

作者信息

Abstract

Fine-grained action recognition datasets exhibit environmental bias, where multiple video sequences are captured from a limited number of environments. Multi-modal nature of video(视频的多模态性),提出的方法一个是multi-modal self-supervision,还有一个是adversarial training per modality

Introduction

fine-grained action recognition,
举的例子
不同数据集的比较
Few works have attempted deep UDA for video data《Temporal attentive alignment for large-scale video domain adaptation, ICCV2019》《Deep domain adaptation in action space, BMVC2018》

Conclusion

modality指的是两种信息(optical flow和RGB信息),future work包含audio

Key points: Motivation很好; 提出的新数据集

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

多源多模态领域自适应是领域自适应(Domain Adaptation)的一个拓展方向。领域自适应主要解决的是当模型从有标注的源域迁移到无标注的目标域时,因源域和目标域之间存在域间差异(domain gap),导致模型在目标域上性能下降的问题,而多源多模态领域自适应则在其基础上进一步考虑了多个源域以及多种模态的数据情况 [^1]。 从“多源”角度来看,它意味着有多个不同的源域。传统的领域自适应通常只考虑一个源域,而多源的情况下,模型可以从多个不同的有标注源域中学习知识,这些源域可能具有不同的数据分布、特征等。例如,在图像识别任务中,不同的源域数据可能来自不同的采集设备、不同的场景等,模型需要综合这些不同源域的信息,以更好地适应目标域。 从“多模态”角度而言,它涉及多种不同类型的数据模态,如视觉(图像、视频)、听觉(音频)、文本等。不同模态的数据包含了不同方面的信息,通过结合多模态的数据,可以为模型提供更丰富的特征。例如在动作识别任务中,既可以利用视频中的视觉信息,也可以结合音频信息,使模型对动作的理解更加全面。 以相关论文为例,“Multi - Modal Domain Adaptation for Fine - Grained Action Recognition”中提到,利用视频中的视觉信息和音频信息的一致性作为自监督学习的分类标签进行表征学习,设计模态一致性检测器来增强特征的表征能力,这就体现了多模态数据在领域自适应中的应用。而在更广泛的多源多模态领域自适应场景下,可能会有多个包含不同模态数据的源域,需要将这些源域的多模态数据特征进行整合和对齐,以减小与目标域的差异,让模型在目标域上有更好的性能表现 [^5]。 ```python # 以下为简单示意代码,模拟多源多模态数据处理 import numpy as np # 假设有两个源域,每个源域有视觉和听觉两种模态数据 source_domain_1_visual = np.random.rand(100, 64) # 100个样本,每个样本64维视觉特征 source_domain_1_audio = np.random.rand(100, 32) # 100个样本,每个样本32维听觉特征 source_domain_2_visual = np.random.rand(120, 64) source_domain_2_audio = np.random.rand(120, 32) # 合并多模态数据 source_domain_1_multi_modal = np.hstack((source_domain_1_visual, source_domain_1_audio)) source_domain_2_multi_modal = np.hstack((source_domain_2_visual, source_domain_2_audio)) # 这里可以进一步对多源多模态数据进行处理,如特征对齐等操作 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值