最强的AI视频去码&图片修复模型：CodeFormer

原创

已于 2023-11-29 20:21:49 修改 · 2.3w 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-09-07 19:18:37 首次发布

CodeFormer是一种通过VQGAN的离散码本空间和Transformer模型改进人脸复原的方法，解决了低清图像的多对多映射问题、纹理细节丢失和身份一致性保持的挑战。文章介绍了模型的动机、实现步骤及实验结果，展示了在人脸复原、增强和修复方面的优势。

1 CodeFormer介绍

1.1 CodeFormer解决的问题

CodeFormer是由南洋理工大学-商汤科技联合研究中心S-Lab在NeurIPS 2022上提出的一种基于VQGAN+Transformer的人脸复原模型。该方法基于预训练VQGAN离散码本空间，改变复原任务的固有范式，将人脸复原任务转成Code序列的预测任务，大幅度降低了复原任务映射的不确定性，同时VQGAN的码本先验也为复原任务提供了丰富的人脸细节。最后，通过Transformer全局建模，进一步增加了模型对严重退化的鲁棒性，使得复原的人脸更加真实。

论文地址：https://arxiv.org/pdf/2206.11253.pdf
代码地址：https://github.com/sczhou/CodeFormer

主要用途：

老照片修复与增强

面部修复

面部颜色增强和修复

马赛克还原

1.2 人脸复原的挑战

人脸复原任务面临的诸多挑战：

图片复原任务中的共性问题：高度不适定性。

低清图像（LQ）和潜在的高清图像（HQ）存在多对多的映射关系，如下图所示。这种多解的映射使得网络在学习过程中产生疑惑，无法获得一个高质量的输出，且退化越严重，这种不适应性就会越大。“如何才能降低这种映射的不确定性”是其挑战之一。

纹理细节丢失

从上图可以看出，真实场景的低清人脸图片中往往会引入各种退化，包括噪声、JPEG压缩伪影、模糊、下采样等。这些退化不同程度地损害了原有人脸纹理细节，造成信息丢失。“如何更好地补充真实高清纹理”也一直是人脸复原的一大难题。

人脸身份丢失

以上两点都会导致人脸复原的结果很难保持身份的一致性。然而现实应用中又往往对输出人脸的身份一致性有着很高的要求，在输出高清人脸细节的同时，又要与低清人脸的身份保持一致，这无疑增加了复原过程的难度。

1.3 方法动机

我们首先引入了VQGAN的离散码本空间来缓解以上 (1)、(2) 两个问题。有限且离散的映射空间大大降低了复原任务映射的不适定性 (1)。通过VQGAN的自重建训练，码本先验保存了丰富的高清人脸纹理信息，帮助复原任务补充真实的人脸纹理细节 (2)。

如下图所示，相比连续先验空间 (d、e)，离散码本空间 (f、g) 可以输出更高质量的结果 (没有伪影)，保持完好脸庞轮廓的同时，也展现出更真实、细致的纹理。

如何更准确地得到Code序列呢？我们对比分析了两种不同Code序列的查找方式

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

源启智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。