单三元图视频抠图技术解析
1. 训练细节
1.1 数据准备
- 从每个视频序列中随机采样三个按时间顺序排列的前景和背景帧。
- 若使用图像数据集(如 AIM),通过对前景和背景图像应用三种不同的随机仿射变换来模拟三个视频帧,这些变换包括水平翻转、旋转、剪切、缩放和平移。
- 对于每个前景和背景帧,以未知区域的像素为中心,随机裁剪成 320×320、480×480 或 640×640 的块,然后将裁剪后的块调整为 320×320。
- 对前景和背景帧采用多种增强策略,如前景和背景颜色的直方图匹配、运动模糊、高斯噪声和 JPEG 压缩。
- 实时合成前景和背景以生成输入帧。通过用 1×1 到 26×26 的随机核大小对 GT alpha 遮罩进行膨胀来生成 GT 三元图。
1.2 损失函数
- 为模型的所有输出(隐藏特征除外)设置目标函数。
- 对于初始预测和细化的三元图,使用交叉熵损失与 GT 进行比较。对于提供 GT 三元图作为输入的第一帧,仅对细化的三元图应用损失。
- 对于 alpha 预测,利用时间一致性损失和 FBA 中使用的图像抠图损失,且在每个像素上计算损失。
- 除了三元图和 alpha 损失,还对前景和背景颜色预测应用损失。估计前景和背景颜色,并最小化相关损失,同时对前景和背景应用时间一致性损失。对于前景颜色,仅在 alpha 值大于 0 的区域计算损失。
1.3 其他训练细节
- 选择 RAdam
超级会员免费看
订阅专栏 解锁全文
4784

被折叠的 条评论
为什么被折叠?



