点击下方卡片,关注“大模型之心Tech”公众号
写在前面
在深度学习的历史长河中,AlexNet的横空出世曾彻底改写识别模型的命运——它让"逐层训练"成为过去式,端到端学习从此一统江湖。而今天,当我们望向生成模型的浩瀚星空,扩散模型的多步迭代、自回归模型的时序依赖,是否仍在重演"前AlexNet时代"的困局?
何恺明老师在CVPR 2025 workshop上的最新分享《Towards End-to-End Generative Modeling》 ,正以手术刀般的视角剖开这场技术演进的历史轮回。他不仅回溯了识别与生成的"硬币双面"关系——一边是数据到语义的抽象流,一边是噪声到实例的具象流,更带来了MeanFlow这把"瑞士军刀":用平均速度替代复杂积分,让ImageNet生成从250步迭代压缩到1步完成,FID指标直逼传统多步模型的天花板。
这不禁让人思考:生成模型的"AlexNet时刻"是否已至?
今天,就让我们以何恺明老师的报告为锚点,回顾一下生成模型技术丛林的深度漫游,解锁那些正在重塑生成模型范式的关键思想。
此外,借着这个话题,我们也同步分享我们知识星球社区「大模型之心Tech」里整理的部分生成模型相关前沿论文,加入星球可领取完整版论文总结和所有论文汇总。如果你也在关注生成式模型的技术突破,这篇推送里的报告回顾和论文清单千万别错过~
PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

识别模型的演进:从逐层训练到端到端的革命性突破
在深度学习的发展历程中,识别模型的训练范式经历了一次里程碑式的转变。在AlexNet横空出世之前,逐层训练(layer-wise training)是主流的解决方案,这种方法需要对网络的每一层进行单独优化,如同搭建一座高楼时逐层施工。代表性模型如深度信念网络(DBN)和去噪自动编码器(DAE),它们通过分层训练的方式逐步构建深层网络结构。以DAE为例,其训练过程是在输入数据中添加噪声,然后让模型学习从含噪数据中恢复原始数据,这种逐层优化的方式在当时取得了一定的效果,但也存在着训练流程繁琐、计算复杂度高的问题。
2012年,AlexNet的出现彻底改变了这一局面。从此以后,识别模型普遍实现了端到端(end-to-end)训练。这种训练方式不再对网络的各层进行单独优化,而是将整个网络作为一个整体进行训练,通过反向传播算法一次性调整所有参数,大大简化了模型设计和训练的复杂性。端到端训练就像建造一座大桥,从两端同时施工并最终汇合,这种高效的方式使得模型性能得到了显著提升,也成为了后来深度学习模型的主流训练范式。



生成模型的现状:历史是否会重演?
当我们将目光转向生成模型时,一个引人深思的问题浮现出来:历史是否会在生成模型领域重演?Kaiming指出,今天的生成模型在概念上更像是逐层训练,都需要多步推理过程。以扩散模型和自回归模型为例,它们在生成样本时都需要经过多个步骤:扩散模型需要逐步去噪,自回归模型则需要逐个生成序列中的元素。这种多步推理的方式与AlexNet之前识别模型的逐层训练有着惊人的相似之处,不禁让人思考:生成模型是否也正处于类似识别模型发展的"前AlexNet时代"?
如果历史真的能够重演,那么生成模型是否也能像识别模型一样,从多步推理迈向端到端生成,实现一次革命性的突破?这不仅是一个理论问题,更是一个关乎生成模型未来发展方向的实践问题。
本文首发于大模型之心Tech知识星球,硬核资料在星球置顶:加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~
识别与生成:同一枚硬币的两面
从更高的层面来看,识别与生成其实是同一枚硬币的两面,它们共同构成了数据在"抽象"与"具体"之间流动的两个方向。

识别可以被看作是一个"抽象"的过程。在这个过程中,数据从具体的原始形式(如图像、声音)经过多层神经网络的处理,逐步提炼出抽象的语义信息,最终映射到标签空间。这个过程就像是从纷繁复杂的具体事物中提取出本质特征,形成概念化的表示。
而生成则恰恰相反,它是一个"具体化"的过程。生成模型从一个抽象的表示(如噪声向量或语义编码)出发,通过网络的处理,逐步生成具体的、逼真的数据样本。这个过程就像是将抽象的概念转化为具体的事物,让想象变为现实。
数据就在这种"抽象"与"具体"的流动中,不断地被理解和创造。识别和生成的这种对偶关系,为我们理解生成模型的本质提供了新的视角,也为构建更高效的生成模型提供了灵感。


识别与生成的本质区别:确定映射与无限可能
尽管识别与生成是同一枚硬币的两面,但它们在本质上存在着重要区别。识别任务通常有一个确定的数据到标签的映射,无论输入数据如何变化,其对应的标签都是确定的,就像一把钥匙开一把锁。例如,对于一张猫的图片,其对应的标签"猫"是唯一确定的。

然而,生成任务则完全不同。我们希望从一个简单的"噪声"分布映射到复杂多变的数据分布。这个映射是高度非线性的,而且存在无限的可能性。同样的噪声输入,在不同的生成模型或不同的参数设置下,可能会生成截然不同的样本。这种不确定性既是生成模型的魅力所在,也正是生成模型面临的核心挑战:如何有效地"构造"这个从简单噪声到复杂数据的映射?
流匹配:生成模型的重要探索方向
为了应对生成模型面临的核心挑战,研究人员在流匹配(Flow Matching)方向进行了深入探索。何恺明老师分享了该方向的几篇代表性论文,并总结了一些关键点。


流匹配的核心思想是通过构建数据分布的流场来实现生成。它的基本原理可以用一个简单的公式来表示: ,其中 是原始数据, 是噪声, 是一个控制噪声水平的参数。通过这个公式,我们可以在数据和噪声之间建立一种连续的映射关系。
在流匹配中,有两个重要的概念:条件速度 和边缘速度 。条件速度描述了在给定噪声和数据的情况下,样本的变化趋势;边缘速度则是条件速度在数据分布上的期望,它反映了整体的流场结构。
流匹配的目标是通过训练模型来估计这个流场,使得模型能够准确地捕捉数据分布的动态变化。具体来说,就是通过最小化预测速度场与真实速度场之间的差异来优化模型参数,常用的损失函数为 。

关键点总结:
识别与生成都可以被视为数据分布之间的一种「流」。
Flow Matching 为训练生成模型提供了一种强大的方法,它能够构建出 ground-truth 场,这些场是隐式存在的,并且与具体的神经网络结构无关。
尽管我们希望实现精确的积分来生成,但在实践中,我们通常采用有限求和的近似,这与 ResNet 的离散化方法类似,或者利用数值 ODE 求解器。
我们的终极目标是实现前馈式的、端到端的生成建模,摆脱多步迭代的依赖。
Mean Flows:迈向一步到位的生成
在流匹配研究的基础上,何恺明老师介绍了他们近期提出的新方法——「Mean Flows for One-step Generative Modeling」。该方法的核心思想是追求一步到位的生成,打破传统生成模型多步推理的局限,这无疑是向端到端生成迈出的重要一步。

Mean Flows的核心创新在于将生成过程中的积分运算转化为平均速度的计算。传统的流匹配方法需要求解积分 ,这在实际应用中往往需要多步迭代计算,效率较低。而Mean Flows提出了平均速度的概念: ,它表示在时间区间 内的平均变化率。
通过引入平均速度,生成过程可以简化为 ,这使得生成过程可以在一步内完成,大大提高了生成效率。
为了建立平均速度与瞬时速度之间的关系,研究人员推导出了重要的MeanFlow恒等式: 。这个恒等式揭示了平均速度与瞬时速度之间的动态关系,为模型的训练提供了理论基础。

在训练过程中,Mean Flows直接参数化平均速度 ,并定义损失函数为 ,其中 通过雅可比向量积(JVP)计算得到。这种训练方式避免了直接处理复杂的积分运算,而是通过导数关系来优化模型参数,大大提高了训练效率。
在采样阶段,Mean Flows利用平均速度实现了一步生成,采样公式为 。这种一步生成的方式不仅效率高,而且生成的样本质量也非常出色。


在ImageNet 256x256的生成任务中,Mean Flows展现出了令人惊叹的性能。在1-NFE(Number of Function Evaluation)生成设置下,MeanFlow-XL/2的FID(Frechet Inception Distance)达到了3.43,远远优于iCT-XL/2的34.24和Shortcut-XL/2的10.60。当将NFE增加到2时,MeanFlow-XL/2+的FID更是低至2.20,接近甚至超越了许多需要多步生成的模型。

这些结果不仅证明了Mean Flows方法的有效性,更重要的是,它们为生成模型迈向端到端提供了强有力的证据,表明一步到位的生成是完全可能的。
未来研究方向与展望
何恺明致敬了整个社区在实现高效、端到端生成方面所做的共同努力。他列举了几个主要的研究方向:
Consistency Models (CM):包括 Song 等人的原始工作,以及后续的改进版本如 iCT、ECT、sCM。
Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
Revisiting Normalizing Flows:如 TarFlow 等。
最后,对整个方向进行了展望,并提出了几个问题:
我们是否还在生成模型的「AlexNet 前时代」?
尽管 MeanFlow 已经取得了显著的进步,但它在概念上仍然受限于迭代的 Flow Matching 和扩散模型框架。
MeanFlow 网络扮演着双重角色:它既要构建从噪声到数据的理想轨迹(这些轨迹是隐式存在但需要模型去捕捉的),又要通过「粗化」或概括这些场来简化生成过程。
那么,究竟什么是真正适用于端到端生成建模的良好公式?这是一个开放性的、激动人心的研究问题。

生成建模的新征程已经开启,虽然前方仍有许多挑战,但Mean Flows等突破性进展让我们看到了希望。正如识别模型在AlexNet之后迎来了快速发展,我们有理由相信,生成模型也即将迎来属于自己的"AlexNet时刻",实现从多步推理到端到端生成的历史性跨越。在这个过程中,何恺明老师的研究无疑为我们指明了一个充满希望的方向。
生成模型相关前沿工作汇总
生成模型的技术版图正以惊人的速度扩张——从扩散模型在图像生成领域的统治力,到自回归模型在文本创作中的细腻表达,不同方向的研究如同繁星般点亮了AI生成的浩瀚天空。无论是让AI学会绘制超现实画作的生成网络,还是能根据文字描述生成视频的跨模态架构,亦或是结合强化学习增强扩散语言模型推理能力,每一项工作都在回答着同一个问题:如何让机器真正理解"创造"的本质?
知识星球社区近期聚焦生成模型全领域动态,梳理了一批从理论创新到工程落地的优质研究。接下来将带大家跳出特定技术框架,纵览生成模型的最新突破👇
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation (CVPR 2025)
论文链接:https://arxiv.org/pdf/2412.07589
开源链接:https://github.com/jianzongwu/DiffSensei


One-Minute Video Generation with Test-Time Training (CVPR 2025)
论文链接:https://arxiv.org/pdf/2504.05298
开源链接:https://test-time-training.github.io/video-dit


d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
论文链接:https://arxiv.org/pdf/2504.12216
开源链接:https://dllm-reasoning.github.io/


EX-4D: EXtreme Viewpoint 4D Video Synthesis via Depth Watertight Mesh
论文链接:https://arxiv.org/pdf/2506.05554
开源链接:https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html

Cost-Aware Routing for Efficient Text-To-Image Generation
论文链接:https://arxiv.org/pdf/2506.14753

VideoMAR: Autoregressive Video Generation with Continuous Tokens
论文链接:https://arxiv.org/pdf/2506.14168
开源链接:https://yuhuustc.github.io//projects/VideoMAR.html


有关论文完整版技术详细解析,以及更多生成模型相关的研究成果,加入「大模型之心Tech」知识星球即可获取。
知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元。加入后如果不满意,三天内(72h)可全额退款!,欢迎扫码加入一起学习一起卷!