论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

该研究提出了一种名为VideoCross-StreamPrototypicalContrasting的自监督视频表示学习方法,旨在克服传统对比学习在视频处理中的局限。通过在RGB和光流两种视角下预测一致的原型分配,该方法有效地利用了视频的动态信息,实现了不同视角下的一致性和运动信息的学习。通过交替优化策略,它能够在不需要大batch size或额外存储器的情况下,利用不同模态之间的联系。这种方法提高了视频嵌入的效率和运动信息的利用。

题目:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting
作者:Martine Toering

一、研究背景

  • 传统的自监督对比学习不适用于视频:
    实例级的对比学习取得了很大进展,但是由于操作是用于经过增强的实例集上的,所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强,如:视角变化,光线,形变,运动等,却没有被充分利用。
  • 传统对比学习忽视了实例间的语义相似性:
    在负样本对之间优化得到低相似性分数却不考虑二者的语义相似性,会使样本嵌入产生不理想的距离。
  • 实例级对比学习低效
  • 运动富含信息却和其他信息流相互作用

二、研究目标
找到一种适合视频的自监督表示学习方法:“Video Cross-Stream Prototypical Contrasting”
避免特征级别的对比,减少距离度量的开销:对实例和原型进行对比
有效利用运动信息:用原型映射和交替训练将知识从运动(流)转移到RGB
请添加图片描述

三、研究内容
因此,本文提出了可以作用在采样集上的“Video Cross-Stream Prototypical Contrasting”(视频跨流原型对比),它可以在RGB和光流这两种不同的视角(view)下预测出一致的原型分配(assignment)。
同时,本文采用交替优化策略;在优化任一支流时,所有的视角(view)都会映射在同一个流原型向量(stream prototype vectors)集上。并且,用所有与预测不匹配的视角(view)预测原型分配(assignment)。
本文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值