跨品类虚拟试穿技术解析

跨品类虚拟试穿:在任意个人场景中可视化商品

在线购物者虚拟试用商品的技术是一种能够创造沉浸式购物体验的受欢迎技术。例如,将衣服真实地披在购物者图像上,或将家具插入购物者生活空间的图像中。

在服装类别中,这个问题传统上被称为虚拟试穿;而针对任何品类商品在任意个人场景中的更通用问题,则称为"虚拟全试穿"问题。在一篇近期发布于arXiv的论文中,提出了一种名为Diffuse-to-Choose(DTC)的解决方案。这是一种新颖的生成式AI模型,允许用户在任意场景的任意位置无缝插入商品。

用户从个人场景图像和商品图像开始,在场景中绘制掩码以指示模型插入对象的位置。随后模型将物品融入场景,具有真实的角度、光照、阴影等效果。必要时,模型会推断物品的新视角,并保留物品的细粒度视觉标识细节。

技术特性

Diffuse-to-Choose模型具有多个区别于现有工作的特点:

  • 首个解决虚拟全试穿问题的单一模型,适用于广泛产品类别
  • 仅需单张二维参考图像,无需3D模型或多视角图像
  • 支持"野外"图像(如普通手机照片),无需白底或专业影棚图像
  • 在单个云服务实例(NVIDIA A10G,24GB GPU内存)上约6.4秒生成图像

技术架构

Diffuse-to-Choose是一种修复潜在扩散模型,其架构增强可保留产品的细粒度视觉细节。扩散模型通过逐步训练去噪逐渐增加的噪声输入,而潜在扩散模型则在模型的表示(潜在)空间中进行去噪。修复技术通过掩码图像部分,训练潜在扩散修复模型填充掩码区域并进行真实重建。

与大多数修复模型相同,DTC使用U-Net编码器-解码器模型进行扩散建模。U-Net编码器由卷积神经网络组成,将输入图像划分为小像素块并应用滤波器组寻找特定图像特征。编码器每层逐步降低图像表示分辨率,解码器则逐步恢复分辨率。

主要创新是在扩散过程中引入辅助U-Net编码器。该编码器的输入是粗略的复制-粘贴拼贴图,其中商品图像经缩放后插入用户创建的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值