我们的模型可以很好地处理任何形状、大小、位置或距离图像边界任何距离的空白。以前的深度学习方法主要集中在位于图像中心附近的矩形区域,并且通常需要依赖成本很高的后期处理。“英伟达的研究人员在他们的研究报告中写道,“此外,我们的模型能够很好地处理越来越大的空白区域。”
为了训练神经网络,研究团队首先生成了55116个随机色条、形状和大小任意的masks,用于训练。他们还生成了25000个图像用于测试。为了提高重建图像的精度,研究人员根据相对于输入图像的大小,将这些训练图像进一步分为6类。
图4:一些用于测试的masks
Nvidia的研究人员表示:“此前,基于机器学习的图像处理主要集中在图像中心附近的矩形区域,且处理后通常还需要昂贵的人工后期。所以这次研究的目标,就是创建一个可以处理不规则孔洞的图像修复模型,并对图像语义进行预测,在不需要任何人工后期的情况下生成可与原图顺畅衔接的像素修补。”白皮书详情:https://arxiv.org/pdf/1804.07723.pdf
据悉,Nvidia是首个成功训练神经网络对不规则图像孔洞进行修复的研发团队。本质上说,这项AI技术的关键是基于深层神经网络创建蒙版(mask)和部分卷积预测(partial convolutional prediction)。
使用部分卷积的方法,其中卷积被掩蔽,并且仅基于有效像素进行重新归一化等处理。
论文中,还与现有其他方法进行了对比,有很多公式。
比如这种
还有这种:
部分结果展示
图:ImageNet上的测试结果对比
图:Place2数据集上的测试结果对比
使用NVIDIA Tesla V100 GPU和cuDNN加速的PyTorch深度学习框架,该团队通过将生成的mask应用在ImageNet数据集Places2和CelebA-HQ两个数据集的图像,训练其神经网络。
在训练阶段,将空白或缺失的部分引入上述数据集的完整训练图像中,以使网络能够学习重建缺失的像素。
在测试阶段,另一批没有在训练期间使用的空白或缺失部分被引入数据集里的测试图像,以对重建的图像的精度进行无偏验证。
图:基于典型卷积层的结果(Conv)和“部分卷积”层的结果(PConv)对比
研究人员表示,现有的基于深度学习的图像修复方法不够好,因为丢失像素的输出必然取决于输入的值,而这些输入必须提供给神经网络,以找出丢失的像素。这就导致图像中出现诸如颜色差异或模糊之类的artifacts。
为了解决这个问题,NVIDIA团队开发了一种方法,确保丢失像素的输出不依赖于为这些像素提供的输入的值。这种方法使用一个“部分卷积”层,根据其对相应的接受域(receptive field)的有效性,对每个输出进行重新归一化(renormalization)。这种重新归一化可以确保输出值与每个接受域中缺失像素的值无关。
该模型是利用这些部分卷积实现的UNet架构构建的。使用一组损失函数,匹配VGG模型的特征损失以及风格损失,进而训练模型以产生逼真的输出。
研究人员还在论文中提及,相同的框架也可以用来处理图像超分辨率任务。
总而言之就是一句话:我不是针对谁,在座的都是……
最后顺便提一下,这篇论文的一作Guilin Liu,在加入英伟达之前,还曾在Adobe Research实习过。
Adobe,就是搞出Photoshop(和一堆其他软件)的那家公司~
作者:山水之间2018
来源:优快云
原文:https://blog.youkuaiyun.com/Gavinmiaoc/article/details/80801587