【NeurIPS 2024】南理工提出IMAGPose!用于Pose引导人物图像生成的统一条件框架!照片级真实感!

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

图片

论文名:IMAGPose: A Unified Conditional Framework for Pose-Guided Person Generation

论文链接:

https://proceedings.neurips.cc/paper_files/paper/2024/file/0bd32794b26cfc99214b89313764da8e-Paper-Conference.pdf

开源代码:https://github.com/muzishen/IMAGPose

图片

导读

姿态引导的人物生成旨在将源人物图像转换为特定姿态下的目标人物图像,同时保持外观一致性。它有许多应用,包括虚拟现实、电影制作和电子商务。此外,生成的图像可用于提高下游任务的性能,如行人重识别。

简介

扩散模型为图像生成提供了一条有前景的途径,已在姿态引导的人物图像生成中展现出有竞争力的性能。然而,现有方法仅限于从源图像和目标姿态生成目标图像,忽略了两个关键的用户场景:同时生成具有不同姿态的多个目标图像,以及从多视角源图像生成目标图像。为克服这些局限性,我们提出了IMAG - Pose,这是一个用于姿态引导图像生成的统一条件框架,它包含三个关键模块:特征级条件化(FLC,Feature - Level Conditioning)模块、图像级条件化(ILC,Image - Level Conditioning)模块和跨视角注意力(CVA,Cross - View Attention)模块。首先,FLC模块将变分自编码器(VAE,Variational Autoencoder)编码器的低级纹理特征与图像编码器的高级语义特征相结合,解决了由于缺乏专门的人物图像特征提取器而导致细节信息缺失的问题。然后,ILC模块通过注入可变数量的源图像条件并引入掩码策略,实现图像和姿态的对齐,以适应灵活多样的用户场景。最后,CVA模块引入了全局和局部分解的跨注意力机制,确保在多个源图像提示时人物图像的局部保真度和全局一致性。IMAG - Pose的三个模块协同工作,统一了各种用户场景下的人物图像生成任务。大量实验结果表明,我们提出的IMAG - Pose在具有挑战性的用户场景下具有一致性和照片级真实感。

方法与模型

图2展示了IMAGPose,这是一个统一的条件框架,包含3个核心模块:特征级条件(Feature-level Conditioning,FLC)模块、图像级条件(Image-level Conditioning,ILC)模块和跨视图注意力(Cross-view Attention,CVA)模块。该框架旨在在任何用户场景下生成高保真、高质量的目标图像。FLC模块将变分自编码器(VAE)编码器的低级纹理特征与图像编

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值