SD3: 公式占一半,实验很充分!全面提升高分辨率图像生成能力。理论与实践的完美融合,开源领域的又一里程碑!
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Abstract | HTML | PDF
![[Uncaptioned image]](https://img-blog.csdnimg.cn/img_convert/6ff61722faf2c88f8adf28366e6d7f9a.jpeg)
Stable Diffusion 3 技术报告简介
提出了更快、更准、更强的文本到图像生成技术,同时公开代码和模型权重,为生成式 AI 的进一步发展提供了重要助力,有三大贡献:
路径优化
数据流:采用“整流流”(Rectified Flow),用直线连接数据和噪声,取代传统的弯曲路径,大幅提升采样速度和质量,同时减少误差累积。
架构创新
模型:设计了一种双向信息流架构,实现文本和图像特征的互相交流,突破了传统方法中文本表示固定的局限性,显著提升生成的理解力和表现力。
实验验证
通过大规模实验验证,这些改进不仅在理论上有效,还在生成质量上全面超越了现有的最强开源模型(如 SDXL)和闭源模型(如 DALL-E 3),在自动评估和人工评分中均表现出色。
路径优化(Rectified Flow)
传统扩散生成模型与Simulation-Free Training of Flows对比
传统生成模型:ODE解法
核心原理
- 通过解普通微分方程 (ODE) 将噪声分布 p 1 p_1 p1转换为数据分布 p 0 p_0 p0:
d y t d t = v Θ ( y t , t ) , \frac{dy_t}{dt} = v_\Theta(y_t, t), dtdyt=vΘ(yt,t),
其中 v Θ v_\Theta vΘ 是一个由神经网络参数化的速度场,描述了从噪声到数据的逐步演化。
计算方式
- 对 ODE 进行数值积分,逐步生成数据:
y 0 = y T − ∫ T 0 v Θ ( y t , t ) d t , y_0 = y_T - \int_T^0 v_\Theta(y_t, t) \, dt, y0=yT−∫T0vΘ(yt,t)dt,
每一步都需要调用一次神经网络 v Θ v_\Theta vΘ,总共可能需要数百到数千步,计算开销非常大。
形象类比
- 就像沿着一条曲折的山路开车,每一个弯道都需要减速、转弯、加速。需要谨慎处理每一步,效率很低。
当前方法:条件向量场与信噪比优化
核心原理
-
通过一个线性公式表示噪声与数据的关系:
z t = a t x 0 + b t ϵ , ϵ ∼ N ( 0 , I ) , z_t = a_t x_0 + b_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I), zt=atx0+btϵ,ϵ∼N(0,I),
其中 a t , b t a_t, b_t at,bt描述了数据 x 0 x_0 x0和噪声 ϵ \epsilon ϵ 的混合比例。 -
构造向量场 u t ( z ∣ ϵ ) u_t(z|\epsilon) ut(z∣ϵ),直接拟合噪声与数据的映射关系:
u t ( z ∣ ϵ ) = a t ′ a t z t − b t 2 λ t ′ ϵ , u_t(z|\epsilon) = \frac{a_t'}{a_t} z_t - \frac{b_t}{2} \lambda_t' \epsilon, ut(z∣ϵ)=atat′zt−2btλt′ϵ,
其中 λ t = log a t 2 b t 2 \lambda_t = \log \frac{a_t^2}{b_t^2} λt=logbt2at2 是信噪比,用于动态调整生成路径。
计算方式
- 直接优化损失函数,避免复杂的数值积分:
L C F M = E [ ∥ v Θ ( z , t ) − u t ( z ∣ ϵ ) ∥ 2 ] . \mathcal{L}_{CFM} = \mathbb{E}\left[\left\| v_\Theta(z, t) - u_t(z|\epsilon) \right\|^2 \right]. LCFM=E[∥vΘ(z,t)−ut(z∣ϵ)∥2].
形象类比
- 就像修建了一条笔直的高速公路,车可以以恒定的速度快速到达终点。不需要复杂的减速和转弯,既快又高效。
数学对比
| 特性 | 传统 ODE 解法 | 当前方法 |
|---|---|---|
| 公式 | d y t d t = v Θ ( y t , t ) \frac{dy_t}{dt} = v_\Theta(y_t, t) dtdyt=v |

最低0.47元/天 解锁文章
1004

被折叠的 条评论
为什么被折叠?



