扩散模型走了十年弯路！何恺明重磅新作JiT：回归真正“去噪”本质

最新推荐文章于 2025-12-01 23:47:02 发布

转载最新推荐文章于 2025-12-01 23:47:02 发布 · 10 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247687014&idx=4&sn=5ebeb2bb68c4f979da6af7e452ddaacc&chksm=cf5d899badb002b802988788d608b73b461aced71b9cfeec7c713ac7228217123e801818858a&scene=126&sessionid=0

文章标签：

#回归 #数据挖掘 #人工智能 #机器学习 #算法

来源 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

在生成式 AI 的世界里，扩散模型几乎成了“图像质量保证书”。

但，扩散模型真的在“去噪”吗？

去噪应该是：给我一张被污染的图，我把干净图像还给你。

但如今几乎所有扩散模型都不是这样工作的——它们训练网络去预测噪声、或者预测混合噪声的量。

听起来更像是在“学习噪声”，而不是“学习图像”。

然而，去噪模型应该回归本质，让网络直接预测干净图片本身，而不是高维噪声。

于是，MIT的何恺明团队决定让扩散模型“返璞归真”，提出了一个极简的架构JiT——Just image Transformers。

不用 latent 空间、不用 tokenizer、不用任何预训练、不用额外 loss
只用 Transformer 直接在原始像素 patch 上做扩散

而令人意外的是，这种“返璞归真”的方式，在高维像素空间里反而表现得更强、更稳、更简单。

图1｜这张图演示了图像生成的核心思想：自然图像通常位于一个低维流形上，而噪声或混合噪声（如图中所示的噪声项与“图像减噪声量”）则散落在高维空间。也正因为干净图像在低维结构中，而噪声是彻底的高维乱流，让模型去预测图像本身和去预测噪声，本质上是两类完全不同的任务

—

把噪声扔掉，让模型专注图像

作者强调一个机器学习领域的经典假设：

自然图像位于一个低维的 manifold 上，几何结构连贯、有规律。但噪声呢？

噪声天生是全维度、无结构、乱飘的。预测噪声，本质上就是在高维空间里硬挤大量信息进网络。

所以当模型 patch 尺寸越大、维度越高时，预测噪声这件事迅速变得“不可做”。

论文给了一个非常直观的例子：

他们把二维数据随机投影到 512 维，让一个小 MLP 按三种方式训练：预测 x、预测 ϵ、预测 v，结果：

只有 x-prediction 能正常收敛，预测噪声的模型全线崩溃

换句话说：

网络容量有限时，预测噪声 = 做不出来

预测干净图 = 轻松搞定

基于这个启发，作者提出了极简框架：

整个模型就是一个 Vision Transformer，输入是像素 patch，输出也是像素 patch，不加花哨结构、不引入额外技巧。

—

技术亮点

真正“去噪”的扩散目标

核心思想：让网络预测干净数据，而不是噪声或混合噪声。

作者通过数学推导展示：三种预测方式在理论上可以互相转换，但网络直接输出 x 会让任务变得更简单。

在高维场景中尤其关键，比如 3072 维 patch（32×32×3）：

只有 x-pred 不会崩溃。

图2｜这是一个二维数据被随机投影到高维空间的实验。作者在投影后的高维空间里训练了一个小型生成网络，并比较三种预测方式的表现。随着维度不断升高，只有“预测干净图像”的方式还能维持正常结果，而预测噪声或混合噪声的模型都会迅速崩溃

不用 latent、不用小 patch，也能做高分辨率扩散

传统 ViT 做扩散时需要各种“小 patch + 大模型”组合来避免维度爆炸。

但作者发现：

即便 patch 高达 3072 维，只要做 x-prediction 就能稳定训练。

更夸张的是：

他们甚至训练了 patch=64（也就是 12288 维 token）的模型，依然保持良好效果。

这意味着：

扩散 + Transformer 完全可以摆脱 latent space，自洽地在像素空间工作。

图3｜JiT 的结构示意图。它本质上就是一个直接处理像素 patch 的 ViT，不依赖额外模块，模型的输出也是同样大小的像素 patch，用来做干净图像的预测

越“瘦”的模型，效果有时越好

在下图中，作者测试了一个非常反直觉的设计：

把 patch embedding 做成 bottleneck（比如把 768 维压到 128、64、32）

结果：没有任何灾难性退化，反而在某些范围（32～512）显著提升 FID，最小甚至只用 16 维 bottleneck 也没崩溃。

这与 manifold 假设完全一致：

干净图像本身是低维的，把 embedding 压缩后更贴近其几何结构，反而 “更好学”。

图4｜即便把原始 patch（768 维）压缩到很小的维度，例如 32 维甚至 16 维，模型依然能稳定生成图像，而且往往效果更好。这说明图像本身的关键信息是低维的，合适的瓶颈反而能帮助模型更好地学习

—

实验表现

在实验部分，作者将 JiT 这套“极简扩散 Transformer”在 ImageNet 的多个分辨率上全面检验。最令人惊讶的是，在完全不用 tokenizer、不做预训练、不引入额外损失的前提下，它依然能取得相当亮眼的表现。

以 256×256 分辨率为例，随着模型规模从 Base 到 Large、再到更大的 H 和 G，FID 指标不断下降：JiT-L/16 已能达到 2.36，而 H 与 G 级模型更是进入 1.x 区间，其中 JiT-G/16 达到 1.82，与当前依赖复杂 latent 空间或自监督特征的大型扩散模型处在同一水平。

图5｜实验比较了不同规模模型在 256×256 与 512×512 上的可扩展性。由于序列长度固定，两种分辨率的计算量基本相同。随着模型规模扩大，512 分辨率的 FID 甚至能优于 256 分辨率，显示出 JiT 在高维像素空间的稳定性

当分辨率提升到 512×512，JiT 同样保持稳定。作者将 patch 尺寸同步扩大为 32×32，使序列长度仍旧维持在 16×16，不随分辨率攀升而变重。结果显示，H/32 模型达到 1.94 的 FID，而 G/32 模型更是达到 1.78，证明在超高维 patch（3072 维）下，x-prediction 仍能保证良好的可训练性。

图6｜作者在 ImageNet 1024×1024 的高分辨率上评估了 JiT-B/64 模型。由于序列长度与低分辨率一致（仍是 16×16 patch），计算量几乎不随分辨率增加而上升，模型在千级分辨率下也能保持稳定表现

在更高分辨率的 ImageNet 1024×1024 上，JiT-B/64 同样能给出可用的结果（FID 4.82），并且计算成本几乎与 256 或 512 分辨率时无异，原因就在于序列长度恒定。这种“分辨率增长但计算不变”的性质，使得 JiT 特别适合原生像素空间的高分辨率生成任务。

—

总结

JiT 框架展示了一种完全自洽、无需预训练、无需复杂结构的路径，让 Transformer 在原生像素空间也能高效扩散。对于具身智能、科学计算等需要处理原始高维数据的领域，这种“去掉中间件”的方式尤其重要：

不用 latent、不用 tokenizer 的扩散 + Transformer，有可能成为更通用的生成基础方式。

论文标题：Back to Basics: Let Denoising Generative Models Denoise

论文作者：Tianhong Li, Kaiming He

原文链接：https://arxiv.org/pdf/2511.13720

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com