【CVPR2022】Boosting Robustness of Image Matting with Context Assembling and Strong Data Augmentation

本文提出一种结合多级上下文组合与强数据增强的图像抠图方法(RMat),有效提高了算法对不同精度trimap及跨域图像的鲁棒性。通过对编码器引入Transformer模块强化全局信息提取,并在解码器中集成注意力机制以关注细节。

Boosting Robustness of Image Matting with Context Assembling and Strong Data Augmentation

中文题目 利用上下文组合和强数据增强的增强鲁棒图像抠图

paper:https://openaccess.thecvf.com/content/CVPR2022/papers/Dai_Boosting_Robustness_of_Image_Matting_With_Context_Assembling_and_Strong_CVPR_2022_paper.pdf

code:Null

摘要

​ 深度图像抠图方法在很多数据集上已经得到了较好的结果。但是鲁棒性仍缺乏探究,包括trimaps和从不同域中生成图像的鲁棒性。尽管一些工作建议通过额外的数据增强来改进trimap或使算法适应真实世界的图像,但没是有人同时考虑到这两点。而且在使用这些数据增强时,基准测试的性能显著下降。为了填补这一空白,我们提出了一种具有更高鲁棒性的图像抠图方法(RMat)通过多级上下文组合和强数据增强目标抠图。具体来说,我们首先通过在编码器中使用Transformer块建模大量的全局信息来构建一个强大的matting框架,并结合卷积层以及解码器中的浅层特征集成到注意块来关注细节。然后,基于这个强基线,我们分析了当前的数据增强,并探索了简单而有效的强数据增强来增强基线模型,并贡献了一种更通用的抠图方法。使用上下文组合和强数据增强基准提高图像抠图的鲁棒性(在SAD上提高11%,在Grad上提高27%),模型尺寸更小,但在其他基准上也显示出更多健壮的泛化结果。在真实世界的图像上,我们也在不同的粗到细的trimap上进行了大量的实验

动机

为了探究是否有可能用更简单有效的方法来增强抠图算法的上下文建模能力(鲁棒性)和具有较好的领域泛化能力的模型,本文提出了一种鲁棒性更强的抠图方法(RMat),该方法对不同trimap精度具有更高的鲁棒性,对不同领域具有更好的泛化能力。具体设计分为两个步骤。第一步是使用多级上下文组合构建一个强大的基线模型。它通过将Transformer块与卷积层结合来实现,其中全局上下文通过自注意模块学习,局部上下文由卷积层强调。考虑到抠图需要局部上下文信息和原始测试分辨率来捕获细节的唯一性,我们探索了针对该任务的设计和实现的有效的模型。此外,在这个强基线模型的基础上,我们研究了抠图的强数据增强。我们分析了当前增强背后的问题,并提出了专门用于抠图的强增强策略。最后,为了验证模型的鲁棒性,进行了一系列的实验和可视化,并与最先进的方法进行了比较。

创新点

(1)多层级上下文组合的强抠图框架

(2)应用于抠图的强数据增强策略

(3)实验和可视化设计验证抠图模型的泛化能力

(4)最先进的基准测试结果(w/和w/o拟合训练集),对不同trimap精度有更高鲁棒性,以及对真实世界图像有更好的泛化能力。

方法论

Encoder Design

编码器包含两个分支,一个Transformer分支模拟全局上下文信息,一个卷积分支补充浅层的细节信息。
在这里插入图片描述

Decoder Design

由于编码器中的Transformer分支具有较大的能力和全局接收域,并且为了减少计算量,我们只考虑在基本解码器中使用MLP层和卷积层。它们还可以很好地组合多层上下文信息

Feature Skip Design

(1)Transformer分支(Tskip)的跳连接,这些特征图在恢复分辨率的同时传输了丰富的全局信息。

(2)卷积分支(LSkip),补充原本像素的细节信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值