SD3: 公式占一半，实验很充分！全面提升高分辨率图像生成能力。理论与实践的完美融合，开源领域的又一里程碑！

原创

已于 2024-11-29 17:58:38 修改 · 978 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-11-29 17:52:44 首次发布

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Abstract | HTML | PDF

[Uncaptioned image]

提出了更快、更准、更强的文本到图像生成技术，同时公开代码和模型权重，为生成式 AI 的进一步发展提供了重要助力，有三大贡献：

路径优化
数据流：采用“整流流”（Rectified Flow），用直线连接数据和噪声，取代传统的弯曲路径，大幅提升采样速度和质量，同时减少误差累积。

架构创新
模型：设计了一种双向信息流架构，实现文本和图像特征的互相交流，突破了传统方法中文本表示固定的局限性，显著提升生成的理解力和表现力。

实验验证
通过大规模实验验证，这些改进不仅在理论上有效，还在生成质量上全面超越了现有的最强开源模型（如 SDXL）和闭源模型（如 DALL-E 3），在自动评估和人工评分中均表现出色。

核心原理

通过解普通微分方程 (ODE) 将噪声分布 $p_1$ 转换为数据分布 $p_0$ ：
$\frac{dy_t}{dt} = v_\Theta(y_t, t),$
其中 $v_\Theta$ 是一个由神经网络参数化的速度场，描述了从噪声到数据的逐步演化。

计算方式

对 ODE 进行数值积分，逐步生成数据：
$y_0 = y_T - \int_T^0 v_\Theta(y_t, t) \, dt,$
每一步都需要调用一次神经网络 $v_\Theta$ ，总共可能需要数百到数千步，计算开销非常大。

形象类比

核心原理

通过一个线性公式表示噪声与数据的关系：
$z_t = a_t x_0 + b_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I),$
其中 $a_t, b_t$ 描述了数据 $x_0$ 和噪声 $\epsilon$ 的混合比例。
构造向量场 $u_t(z|\epsilon)$ ，直接拟合噪声与数据的映射关系：
$u_t(z|\epsilon) = \frac{a_t'}{a_t} z_t - \frac{b_t}{2} \lambda_t' \epsilon,$
其中 $\lambda_t = \log \frac{a_t^2}{b_t^2}$ 是信噪比，用于动态调整生成路径。

计算方式

直接优化损失函数，避免复杂的数值积分：
$\mathcal{L}_{CFM} = \mathbb{E}\left[\left\| v_\Theta(z, t) - u_t(z|\epsilon) \right\|^2 \right].$

形象类比

特性	传统 ODE 解法	当前方法
公式	$\frac{dy_t}{dt} = v_\Theta(y_t, t)$