一、文章主要内容
论文针对扩散模型超分辨率合成中存在的效率低、伪影多、泛化性差等问题,提出Latent Upscaler Adapter(LUA) ——一个轻量级模块,插入扩散模型生成器与VAE解码器之间,直接对 latent 代码进行超分后再解码,无需修改基础模型或增加额外扩散阶段。LUA 采用共享 Swin 风格骨干网搭配尺度特定像素重排头,支持 ×2 和 ×4 超分,通过“ latent 域结构对齐→联合 latent-像素一致性→像素域边缘优化”的三阶段训练策略,在保证感知质量的同时,大幅降低解码和超分耗时。实验验证,LUA 在 2048×2048、4096×4096 等高分辨率场景下,比像素域超分(如 SwinIR)和多阶段扩散超分(如 DemoFusion)更快,且质量相当或更优,同时能跨 SD3、SDXL、FLUX 等不同 VAE 模型泛化。
二、核心创新点
- 高效 latent 域超分方案:无需后处理超分或额外扩散阶段,单前馈 pass 完成 latent 代码超分,解码一次即可输出高分辨率图像,比像素域超分快近 3 倍。
- 多尺度统一框架:共享骨干网搭配尺度特定头,同时支持 ×2/×4 超分,无需为不同尺度单独训练模型,降低存储和训练开销。
- 跨 VAE 泛化能力:仅需修改第一层卷积以匹配输入通道数,并通过少量微调,即可适配不同扩散模型的 VAE,无需从零训练。
- 多阶段训练 curriculum:结合

订阅专栏 解锁全文
5175

被折叠的 条评论
为什么被折叠?



