TPAMI 2023 | 生成式AI与图像合成综述

部署运行你感兴趣的模型镜像

导读

生成式AI作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。随着DALL-E2Stable DiffusionDreamFusion的发布,AI 作画和3D 合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式AI技术深刻地拓展了人们对于AI图像生成能力的认识,那么这些生成式AI方法是如何生成以假乱真的视觉效果?又是如何利用深度学习和神经网络技术来实现画作、3D生成以及其他创造性任务的呢?我们的综述论文将会给您提供这些问题的答案。

论文地址:https://arxiv.org/abs/2112.13592
代码地址:https://github.com/fnzhan/Generative-AI
项目地址:https://fnzhan.com/Generative-AI/

在第一章节,我们将为您描述多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。

在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导,文字引导,语音引导,还有近期DragGAN提出的控制点引导等,并且介绍了相应模态数据的处理方法。

在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。

由于基于 GAN 的方法一般使用条件 GAN 和 GAN 反演,因此该论文进一步根据 控制条件的融合方式,模型的结构,损失函数设计,多模态对齐,和跨模态监督进行了详细描述。

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

相比于基于GAN和扩散模型的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为token序列,然后自回归式地建模token的分布。由于文本和语音等数据都能表示为token并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

以上方法主要聚焦于2D图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化NeRF,生成式NeRF两种方法对现有工作进行了分类与总结。

随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而NeRF在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。

在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。

在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

对本综述感兴趣的小伙伴欢迎点击文末阅读原文

您可能感兴趣的与本文相关的镜像

indextts2-IndexTTS2 最新 V23版本的全面升级情感控制更好 构建by科哥

indextts2-IndexTTS2 最新 V23版本的全面升级情感控制更好 构建by科哥

PyTorch

indextts2-IndexTTS2 最新 V23版本的全面升级情感控制更好 构建by科哥

### 图像字幕生成的研究概述 图像字幕生成(Image Captioning),作为计算机视觉和自然语言处理交叉领域的重要课题,近年来受到了广泛关注。该任务旨在通过分析输入图片的内容并为其生成描述性的文字说明。 #### 细粒度图像字幕生成策略 细粒度图像字幕生成功能依赖于上下文感知的视觉政策网络来实现更精确的目标识别描述[^1]。这种模型不仅能够理解图像的整体布局,还能捕捉其中各个组成部分之间的细微差别及其相互作用方式,从而提供更加具体而生动的文字解释。例如,在面对复杂场景下的鸟类照片时,系统可以准确指出鸟种名称以及它所处的具体环境特征。 #### 场景图辅助机制 为了进一步提升图像字幕的质量,研究人员引入了场景图这一概念。场景图作为一种特殊的图形表示方法,利用节点表达物体实例,用边连接这些节点以展示它们之间存在的空间位置或其他形式的关系[^3]。借助这样的结构化信息源,算法可以在构建句子的过程中更好地反映真实世界里事物间的关联模式,进而提高最终输出文案的真实性和逻辑连贯性。 ```python import torch from transformers import BertTokenizer, VisionEncoderDecoderModel tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = VisionEncoderDecoderModel.from_pretrained('nlpconnect/vit-gpt2-image-captioning') def generate_caption(image_path): image = ... # 加载并预处理图像数据 pixel_values = ... # 将图像转换成适合模型输入的形式 outputs = model.generate(pixel_values=pixel_values) caption = tokenizer.decode(outputs[0], skip_special_tokens=True) return caption ``` 此代码片段展示了如何基于预训练好的Vision Encoder Decoder Model框架来进行简单的图像字幕生成操作。实际应用中可能还需要针对特定需求调整参数设置或采用其他优化措施。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值