贡献点
1.我们的方法主要采用了在GEBD任务上微调的Masked Autoencoders的集成,作为与其他基本模型的自监督学习器。
2.我们还使用半监督伪标记方法,以充分利用丰富的未标记Kinetics-400数据进行训练。
3.我们提出了一种软标签的方法,部分平衡的积极和消极的样本,并减轻在这项任务中的模糊标记的问题。
4.实现了一个棘手的分割对齐策略,以将我们的模型预测的边界细化到更准确的位置。
整体框架

该框架分为三个模块。第一个是MAE模块,第二个是用Temporal Self Similarity和transformer模块,第三个是Contrastive模块,下面一一介绍。
MAE(Masked Autoencoders)
掩码自编码器(MAE)是可扩展的计算机视觉自监督学习器。在预训练过程中,对一张图片的某些patch进行mask操作。Encoder应用于未进行mask的patch。在Encoder之后引入mask token,全套编码过的patch和mask的token由一个小型解码器处理,该解码器以像素为单位重建原始图像进行预训练。,,,

同时,对于每个像素点,Pixelwise MSE Loss计算预测值和目标值之间的差异,并将差值平方后求取平均值。这样做的目的是使模型更加关注预测结果与真实值之间的细微差异,较大的差异会对损失产生更大的影响。更好地训练video数据。额外解释一下为什么原来video是40 x 224

本文介绍了在GEBD任务中,通过集成MaskedAutoencoders、半监督伪标记、软标签、TSM和Transformer,以及创新的分割对齐策略,提升视频边界检测性能。实验涉及易难样本分离和模型融合,展示了多种技术的有效性。
最低0.47元/天 解锁文章
681

被折叠的 条评论
为什么被折叠?



