论文阅读：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

原创

已于 2022-02-12 13:59:36 修改 · 2.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #机器学习

于 2022-02-12 12:27:56 首次发布

该研究提出了一种名为VideoCross-StreamPrototypicalContrasting的自监督视频表示学习方法，旨在克服传统对比学习在视频处理中的局限。通过在RGB和光流两种视角下预测一致的原型分配，该方法有效地利用了视频的动态信息，实现了不同视角下的一致性和运动信息的学习。通过交替优化策略，它能够在不需要大batch size或额外存储器的情况下，利用不同模态之间的联系。这种方法提高了视频嵌入的效率和运动信息的利用。

题目：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting
作者：Martine Toering

一、研究背景

传统的自监督对比学习不适用于视频：
实例级的对比学习取得了很大进展，但是由于操作是用于经过增强的实例集上的，所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强，如：视角变化，光线，形变，运动等，却没有被充分利用。
传统对比学习忽视了实例间的语义相似性：
在负样本对之间优化得到低相似性分数却不考虑二者的语义相似性，会使样本嵌入产生不理想的距离。
实例级对比学习低效
运动富含信息却和其他信息流相互作用

二、研究目标
找到一种适合视频的自监督表示学习方法：“Video Cross-Stream Prototypical Contrasting”
避免特征级别的对比，减少距离度量的开销：对实例和原型进行对比
有效利用运动信息：用原型映射和交替训练将知识从运动（流）转移到RGB
请添加图片描述

三、研究内容
因此，本文提出了可以作用在采样集上的“Video Cross-Stream Prototypical Contrasting”（视频跨流原型对比），它可以在RGB和光流这两种不同的视角（view）下预测出一致的原型分配（assignment）。
同时，本文采用交替优化策略；在优化任一支流时，所有的视角（view）都会映射在同一个流原型向量（stream prototype vectors）集上。并且，用所有与预测不匹配的视角（view）预测原型分配（assignment）。
本文