MAE-GEBD:Winning the CVPR’2023 LOVEU-GEBD Challenge

本文介绍了在GEBD任务中,通过集成MaskedAutoencoders、半监督伪标记、软标签、TSM和Transformer,以及创新的分割对齐策略,提升视频边界检测性能。实验涉及易难样本分离和模型融合,展示了多种技术的有效性。

贡献点

1.我们的方法主要采用了在GEBD任务上微调的Masked Autoencoders的集成,作为与其他基本模型的自监督学习器。
2.我们还使用半监督伪标记方法,以充分利用丰富的未标记Kinetics-400数据进行训练。
3.我们提出了一种软标签的方法,部分平衡的积极和消极的样本,并减轻在这项任务中的模糊标记的问题。
4.实现了一个棘手的分割对齐策略,以将我们的模型预测的边界细化到更准确的位置。

整体框架

在这里插入图片描述
该框架分为三个模块。第一个是MAE模块,第二个是用Temporal Self Similarity和transformer模块,第三个是Contrastive模块,下面一一介绍。

MAE(Masked Autoencoders)

掩码自编码器(MAE)是可扩展的计算机视觉自监督学习器。在预训练过程中,对一张图片的某些patch进行mask操作。Encoder应用于未进行mask的patch。在Encoder之后引入mask token,全套编码过的patch和mask的token由一个小型解码器处理,该解码器以像素为单位重建原始图像进行预训练。,,,
在这里插入图片描述

同时,对于每个像素点,Pixelwise MSE Loss计算预测值和目标值之间的差异,并将差值平方后求取平均值。这样做的目的是使模型更加关注预测结果与真实值之间的细微差异,较大的差异会对损失产生更大的影响。更好地训练video数据。额外解释一下为什么原来video是40 x 224

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值