视频实例分割技术:MS - STS VIS与RankSeg的创新与突破
1. MS - STS VIS框架概述
MS - STS VIS是一种基于Transformer的视频实例分割(VIS)框架,旨在有效捕捉视频中跨帧多尺度的时空特征关系。该框架引入了新颖的多尺度时空分割注意力(MS - STS)模块,以及在训练过程中使用辅助判别器来增强前景 - 背景的可分离性,从而应对现实世界中目标外观变形的挑战。
1.1 对抗损失与编码器作用
在MS - STS VIS中,判别器D接收真实输入和虚假输入。对抗损失的计算公式如下:
[
\min_{Enc} \max_{D} E[\log D(F_{gt})] + E[\log(1 - D(F_{pr}))] + \lambda_1 E[||D(F_{gt}) - D(F_{pr})||_1]
]
这里,编码器Enc被视为生成器。通过这种对抗训练,编码器能够更好地划分前景和背景区域,进而提高视频实例掩码预测的准确性。需要注意的是,判别器网络仅在训练期间使用。
1.2 实验设置
1.2.1 数据集
- YouTube - VIS 2019 :包含2883个高质量视频,有131K个标注的对象实例,分为40个不同类别。
- YouTube - VIS 2021 :包含3859个高质量视频,有232K个标注的对象实例,同样分为40个改进后的类别。该数据集通过合并鹰和猫头鹰为鸟类、猿为猴子,删除手部类别,并添加飞盘、松鼠和鲸鱼类别,保持了
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



