ICCV 2025｜高德USP：图像生成与理解的统一自监督预训练

高德技术

于 2025-07-11 16:00:26 发布

阅读量315

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/amap_tech/article/details/149285783

ICCV(International Conference on Computer Vision)是计算机视觉领域的国际顶级学术会议，也是中国计算机学会(CCF)推荐的A类国际学术会议，今年计划于10月19日至10月25日在美国夏威夷召开。本届ICCV会议共有11,239篇有效投稿，录用2698篇，录取率为 24%。高德技术团队共5篇论文被收录。

论文标题｜USP: Unified Self-Supervised Pretraining for Image Generation and Understanding

论文链接｜https://arxiv.org/pdf/2503.06132
开源地址｜https://github.com/AMAP-ML/USP

本文提出了统一自监督预训练（USP, Unified Self-Supervised Pretraining），该方法通过在变分自编码器（VAE）的潜在空间中进行潜在掩码建模（Masked Latent Modeling）预训练，预训练后的ViT 编码器等权重可以无缝迁移到下游任务，包括图像分类、语义分割以及基于扩散模型的图像生成。USP在理解任务中表现优异，在生成任务中显著加速DiT和SiT模型的收敛，分别比从头训练快11.7倍（DiT-XL）和46.6倍（SiT-XL）。

（图1：USP整体架构）

统一预训练框架：本文提出 USP，一种将图像理解与基于扩散模型的图像生成有效结合的统一预训练框架。经过预训练后，所学表示可通过权重初始化无缝迁移至下游任务。

预训练与下游任务解耦：为避免不同下游任务的优化目标干扰，USP在 VAE 潜在空间中引入掩码特征建模，实现无监督的稳健表示学习，摆脱对标签的依赖，并加速训练过程。

高效性与通用性：USP 显著提升了 DiT 与 SiT 两个扩散模型的训练效率，仅用 600K 和 150K 步即可超越原始 7M 步的表现，分别加速 11.7× 和 46.6×，同时在图像识别任务中也保持了强大表示能力，具备良好的扩展性且无额外开销。同时，USP结合其他利用外部模型加速扩散模型收敛速度的方法，可以取得比单一方法更好的效果，表现出良好的正交性。

｜研究背景

在过去十年中，预训练-微调（pretraining-finetuning）范式在图像识别任务中取得了显著成功。但在图像生成领域，该范式的探索仍然有限；DDAE等近期的研究表明，生成模型不仅可以合成高质量图像，还可以学习到优越的视觉表征，图像理解和图像生成之间存在着深层次的联系。

例如，iGPT（Image GPT）探索了基于像素空间的自回归预训练，但该方法在大规模数据集和模型上扩展时面临着严重的计算成本问题。此外，这种方法与扩散模型不兼容。

为了弥合这一差距，REPA提出通过对齐扩散模型与预训练的视觉模型（如 DINOv2）的表征，可以让扩散模型更高效地学习判别特征，从而提高训练效率和生成质量。然而，REPA存在几个主要问题：

高昂的计算成本：REPA 依赖于 DINOv2 这样的大规模预训练视觉模型，其预训练需要超过 22,000 GPU 小时（A100），计算资源需求极高。
额外的教师网络（Teacher Network）：使用 DINOv2 作为教师模型会增加 GPU 显存消耗，同时降低扩散模型的训练速度。

尽管已有研究揭示了生成和理解任务间的联系，但仍然有一些关键问题尚未解决：

预训练是否对扩散模型的训练是可行且必要的？
是否可以找到一种同时适用于生成和理解任务的预训练方法？
现有的“预训练-微调”范式是否能成功应用于生成模型？

该论文旨在提出一种简单而有效的方法来解决这些问题。

｜论文亮点

实现能够同时适用于图像理解和生成的统一预训练-微调范式面临诸多挑战：

C1: 输入不匹配：图像理解模型通常接收干净的图像作为输入，而扩散模型接受的是添加了噪声的图像。
C2: 结构不匹配：生成模型多为基于 VAE 的潜空间扩散模型，而大多数图像理解任务并不使用 VAE。此外， ViT 结构在图像生成任务中通常会进行修改。
C3: 损失函数和标签格式不同：图像理解任务和图像生成任务通常采用不同的优化目标，这使得直接共享预训练模型变得困难。

尽管面临这些挑战，研究者也观察到了一些有利的现象：

P1: 神经网络对噪声具有鲁棒性：预训练的视觉模型在噪声或数据增强下仍然可以保持较高的分类精度，例如在 ImageNet-C 数据集上测试。说明即使扩散模型处理的是加噪图像，预训练模型仍可以学习到有效的特征。
P2: 扩散模型可以学习到判别性特征：扩散模型能学习到用于图像分类等任务的判别性特征。如果能够有效地对齐这些表征，扩散模型的收敛速度和最终性能都可以得到显著提升。
P3: ViT 结构具有较强的适应性：尽管 ViT 在应用到扩散模型时经历了一定修改（如 AdaLN-Zero 层归一化和额外的条件输入）。但如果设计得当，这些修改仍然可以与 ViT 的预训练权重兼容。
P4: VAE 具有强大的压缩和重建能力：扩散模型中使用的 VAE（如 SD-VAE）能够有效地保留原始图像的重要信息。即使在 VAE 的潜空间中进行训练，仍然可以获得高质量的视觉特征。

基于以上观察，本文的研究者提出了统一的自监督预训练架构，见图1。

USP架构基于一个简单的自编码器（Autoencoder），但在 VAE 潜空间中进行操作，而非像素空间。输入图像首先经过 VAE 编码到潜空间，并通过 PatchConv 进行图片分块。部分块按照设定mask比例被随机掩码，未掩码的块输入到 ViT 编码器，而解码器负责重建掩码块，损失函数仅使用简单的MSE loss。在预训练阶段，VAE 参数被冻结，仅训练 ViT 编码器。预训练完成后，ViT 编码器的权重可用于初始化下游任务，如分类、分割和生成。

在将预训练模型权重适配到下游理解和生成模型时，针对图像分类任务，ViT 编码器的预训练权重可直接继承，无需额外调整，且仍然使用Class Token作为最终表征。对于生成任务，由于 DiT 和 SiT 的结构与 ViT 略有不同，对初始化策略进行了优化。首先，在 AdaLN-Zero 层归一化中，恢复可训练的偏置（β）和缩放因子（γ），使其与预训练的 ViT 权重对齐。其次，由于预训练是在224×224 进行，而 ImageNet 生成任务通常在 256×256 进行，因此本文采用Bicubic Interpolation扩展位置编码。最后，由于生成任务不需要class token，在 DiT/SiT 中直接将其移除。这种初始化策略确保了 ViT 预训练权重能够无缝适配到下游分类和生成任务，而不引入额外计算开销或存储需求。

｜实验结果

1、图像生成实验

本文在两种基于 Transformer 的扩散模型，DiT和SiT上验证了 USP。评估均在 ImageNet 256×256 上进行，使用 50,000 个样本，不使用CFG。

表2显示了在不同规模的DiT模型上的对比结果。USP在所有模型规模上均显著提升了生成质量，且随着训练时间延长，生成质量不断提高。相比最近的DiT 变体在2.5M步的FID，USP仅在400K内就能达到更好的效果。

表4显示了在不同规模的 SiT 模型上的对比结果。USP表现出和DiT一致的提升效果。同时，表3与近期利用表征对齐来提升 DiT/SiT 性能的方法进行了比较,USP在所有模型设置下均优于其他方法。

表3展示了USP与两种利用外部模型加速方法（REPA / VAVAE）的正交性。USP分别与上述方法叠加使用，可以在相同训练步数下取得更好的效果。当USP与VAVAE同时使用，只需64 epochs训练（320K steps ）就可以取得1.81的FID。

2、图像理解实验

论文在ImageNet-1k数据集上进行了线性探测（Linear Probe）和微调（Fine-tuning）的图像分类评估。在线性探测（LP）任务上，USP的性能优于 MAE；在微调（SFT）任务上，USP表现与MAE相当，表5总结了分类结果：

进一步，论文在ADE20数据集上进行了分割性能评估。表6显示了 USP在单尺度 mIoU 指标上的表现，相比MAE 提升了 0.5%。

3、消融实验

研究者进行了全面的消融实验，以探讨 USP 设计中不同组件的影响。例如VAE、输入分辨率、掩蔽率等。更多的消融实验说明见原论文。

｜未来思考

在本工作中，我们深入研究了预训练-微调范式，面向图像识别与生成两类任务。通过在变分自编码器（VAE）的潜在空间中进行掩码潜在建模，我们实现了统一且稳健的表示学习。该方法仅需一次训练，即可通过权重初始化无缝迁移至下游任务，从而显著提升性能。值得注意的是，该方法在下游任务中不引入额外的训练开销或 GPU 显存负担。我们认为，这一方法可作为研究社区的一个强有力的基线。未来，可以进一步探讨这种无监督的表征预训练方法在自回归生成模型上是否能有类似的加速效果。

欢迎加入

【加入顶尖团队，与阿里星共攀科技高峰】

如果你渴望站在技术前沿，用创新成果定义未来——「阿里星」正在寻找你！我们面向全球顶尖高校应届毕业生，为最具潜力的青年才俊提供直通世界级科研项目的舞台。

【部门介绍】

高德地图机器学习研发部承接公司核心业务（路线规划、ETA、AIGC创新业务和应用），聚焦多模态大模型、视频生成与理解、图像编辑与生成、时空预测等前沿领域。团队深耕人工智能技术落地，支撑亿级用户产品，同时长期投入前沿技术探索，在NeurIPS/ICLR/CVPR/ICCV/ACL等顶会发表多篇论文，多项成果入选paper digest“最有影响力论文”榜单。我们拥有丰富的业务场景和算力资源，鼓励创新突破，诚邀你与顶尖算法专家并肩，共同定义AI的未来！

扫描下方海报二维码，提交简历与研究意向

期待你的加入！