近期,FAIR的Kaiming He组发布了关于视频的无监督学习研究:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning,这篇论文被CVPR2021收录。论文的核心是将近期图像中的无监督学习方法应用在视频的无监督训练中。这个工作实验非常充分,也只有Facebook和Google 这样的大厂才有足够的资源来做这样的大规模实验。
论文中共选取了四种无监督学习方法:MoCo,BYOL,SimCLR,SwAV。其中MoCo和SimCLR是需要负样本的对比学习方法,而BYOL和SwAV是只依赖正样本的无监督学习方法。从另外一个角度看,MoCo和BYOL都采用了momentum encoder,而SimCLR和SwAV并没有。这里的四种方法有两类是Facebook提出的(MoCo和SwAV),另外的两类SimCLR和BYOL则是Google提出的 。

这四种方法原本都是用于图像的无监督训练,视频相比图像只是多了一个时间维度,这些方法可以非常容易地扩展到视频的无监督学习中。无论是图像分类还是视频分类,无监督就是要学习到特征不变量。具体到图像上,上述方法其实都是要同一个图像做不同的augmentation送入一个encoder网络来学习到不变的特征。那么对于视频分类来说,除了图像本身的变换外,还增加了时序维度。论文的做法是从同一个视频中sample不同的视频片段clips来做无监督学习(这其实可看成video独有的augmentation),这其实是希望学习到temporally-persistent features。论文中选择的是SlowFast R-50来最为encoder。下图展示了从一个视频中抽取3个不同的clips:

FAIR的Kaiming He团队在CVPR2021上发表了一项研究,将图像无监督学习方法应用于视频,通过对比学习方法MoCo, BYOL, SimCLR, SwAV进行大规模实验。他们发现,使用多个视频片段进行无监督学习能提升性能,且长时间间隔的正样本采样有利于学习空间时间持久性特征。在某些情况下,无监督预训练的性能甚至超过了有监督训练。"
50476572,2901685,自动化老化测试框架详解,"['自动化测试', '设备测试', 'Android测试', '硬件验证', '软件验证']
最低0.47元/天 解锁文章
125





