MAE-GEBD:Winning the CVPR’2023 LOVEU-GEBD Challenge-优快云博客

本文介绍了在GEBD任务中，通过集成MaskedAutoencoders、半监督伪标记、软标签、TSM和Transformer，以及创新的分割对齐策略，提升视频边界检测性能。实验涉及易难样本分离和模型融合，展示了多种技术的有效性。

贡献点

1.我们的方法主要采用了在GEBD任务上微调的Masked Autoencoders的集成，作为与其他基本模型的自监督学习器。
2.我们还使用半监督伪标记方法，以充分利用丰富的未标记Kinetics-400数据进行训练。
3.我们提出了一种软标签的方法，部分平衡的积极和消极的样本，并减轻在这项任务中的模糊标记的问题。
4.实现了一个棘手的分割对齐策略，以将我们的模型预测的边界细化到更准确的位置。

整体框架

在这里插入图片描述
该框架分为三个模块。第一个是MAE模块，第二个是用Temporal Self Similarity和transformer模块，第三个是Contrastive模块，下面一一介绍。

MAE（Masked Autoencoders）

掩码自编码器（MAE）是可扩展的计算机视觉自监督学习器。在预训练过程中，对一张图片的某些patch进行mask操作。Encoder应用于未进行mask的patch。在Encoder之后引入mask token，全套编码过的patch和mask的token由一个小型解码器处理，该解码器以像素为单位重建原始图像进行预训练。，，，
在这里插入图片描述

同时，对于每个像素点，Pixelwise MSE Loss计算预测值和目标值之间的差异，并将差值平方后求取平均值。这样做的目的是使模型更加关注预测结果与真实值之间的细微差异，较大的差异会对损失产生更大的影响。更好地训练video数据。额外解释一下为什么原来video是40 x 224