[CVPR2022] 面向时序行为定位任务的无监督预训练

文章信息

  • 英文题目:Unsupervised Pre-training for Temporal Action Localization (UP-TAL)
  • 中文题目:面向时序行为定位任务的无监督预训练
  • 作者:Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang and Yuexian Zou
  • 单位:北京大学、腾讯AI Lab
  • 论文链接:https://arxiv.org/abs/2203.13609

主要贡献

  1. 首次面向时序行为定位任务进行无监督预训练(UP-TAL);
  2. 为此,提出了一个新的代理任务叫做“伪动作定位”(Pseudo Action Localization,PAL),并根据 TAL 任务特点,设计了一种时序等变学习(temporal equivariance learning)范式;
  3. 实验表明在下游时序行为定位任务上超过了主流无监督预训练方法,甚至超过一些有监督预训练方法。下游性能测评任务包括:时序行为检测(Temporal Action Detection,TAD)、行为提议生成(Action Proposal Generation,APG)以及视频文本定位(Video Grounding,VG)。

太长不看系列(TLDR)

伪动作定位(PAL)方法概览
给定一个视频 v i \bm{v}_i vi, 我们首先从中随机选择两个不同时序区域(每个区域包含多个视频片段)作为伪动作区域,然后分别将它们粘贴到另外两个视频( v n \bm{v}_n vn v m \bm{v}_m vm)的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征( r q \bm{r}_q rq r k + \bm{r}_{k+} rk+),并最大化它们之间的一致性。

文章摘要

虽然近年来无监督视频表征学习取得了显著的成就,但大多数现有的方法都是针对视频行为分类任务(TAC)进行设计和优化的。当应用于时序定位任务(TAL)时,由于视频级别分类和片段级别定位之间的固有差异,这些预先训练的模型的迁移性能会受限。为了缓解这一问题,我们首次尝试对时序行为定位任务进行无监督预训练,提出一种新的自监督代理任务,称为“伪动作定位(Pseudo Action Localization,PAL)”。具体来说,我们首先从一个视频中随机选择两个不同时序区域(每个区域包含多个视频片段)作为伪动作区域,然后分别将它们粘贴到另外两个视频的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征,并最大化它们之间的一致性。与现有的无监督视频表征学习方法相比,PAL 以时间密集采样和时间尺度敏感的方式引入时序等变对比学习范式,从而使上游预训练与下游 TAL 任务实现更好的对齐。大量实验表明,PAL 可以利用大规模无类别标签的视频数据来显著提高现有 TAL 方法的性能。

代码地址

开源代码地址:https://github.com/zhang-can/UP-TAL

代码待开源,敬请watch上面的repo~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值