SD3: 公式占一半,实验很充分!全面提升高分辨率图像生成能力。理论与实践的完美融合,开源领域的又一里程碑!

SD3: 公式占一半,实验很充分!全面提升高分辨率图像生成能力。理论与实践的完美融合,开源领域的又一里程碑!

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Abstract | HTML | PDF

[Uncaptioned image]

Stable Diffusion 3 技术报告简介

提出了更快、更准、更强的文本到图像生成技术,同时公开代码和模型权重,为生成式 AI 的进一步发展提供了重要助力,有三大贡献:

路径优化
数据流:采用“整流流”(Rectified Flow),用直线连接数据和噪声,取代传统的弯曲路径,大幅提升采样速度和质量,同时减少误差累积。

架构创新
模型:设计了一种双向信息流架构,实现文本和图像特征的互相交流,突破了传统方法中文本表示固定的局限性,显著提升生成的理解力和表现力。

实验验证
通过大规模实验验证,这些改进不仅在理论上有效,还在生成质量上全面超越了现有的最强开源模型(如 SDXL)和闭源模型(如 DALL-E 3),在自动评估和人工评分中均表现出色。

路径优化(Rectified Flow)

传统扩散生成模型与Simulation-Free Training of Flows对比

传统生成模型:ODE解法

核心原理

  • 通过解普通微分方程 (ODE) 将噪声分布 p 1 p_1 p1转换为数据分布 p 0 p_0 p0
    d y t d t = v Θ ( y t , t ) , \frac{dy_t}{dt} = v_\Theta(y_t, t), dtdyt=vΘ(yt,t),
    其中 v Θ v_\Theta vΘ 是一个由神经网络参数化的速度场,描述了从噪声到数据的逐步演化。

计算方式

  • 对 ODE 进行数值积分,逐步生成数据:
    y 0 = y T − ∫ T 0 v Θ ( y t , t )   d t , y_0 = y_T - \int_T^0 v_\Theta(y_t, t) \, dt, y0=yTT0vΘ(yt,t)dt,
    每一步都需要调用一次神经网络 v Θ v_\Theta vΘ,总共可能需要数百到数千步,计算开销非常大。

形象类比

  • 就像沿着一条曲折的山路开车,每一个弯道都需要减速、转弯、加速。需要谨慎处理每一步,效率很低。

当前方法:条件向量场与信噪比优化

核心原理

  • 通过一个线性公式表示噪声与数据的关系:
    z t = a t x 0 + b t ϵ , ϵ ∼ N ( 0 , I ) , z_t = a_t x_0 + b_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I), zt=atx0+btϵ,ϵN(0,I),
    其中 a t , b t a_t, b_t at,bt描述了数据 x 0 x_0 x0和噪声 ϵ \epsilon ϵ 的混合比例。

  • 构造向量场 u t ( z ∣ ϵ ) u_t(z|\epsilon) ut(zϵ),直接拟合噪声与数据的映射关系:
    u t ( z ∣ ϵ ) = a t ′ a t z t − b t 2 λ t ′ ϵ , u_t(z|\epsilon) = \frac{a_t'}{a_t} z_t - \frac{b_t}{2} \lambda_t' \epsilon, ut(zϵ)=atatzt2btλtϵ,
    其中 λ t = log ⁡ a t 2 b t 2 \lambda_t = \log \frac{a_t^2}{b_t^2} λt=logbt2at2 是信噪比,用于动态调整生成路径。

计算方式

  • 直接优化损失函数,避免复杂的数值积分:
    L C F M = E [ ∥ v Θ ( z , t ) − u t ( z ∣ ϵ ) ∥ 2 ] . \mathcal{L}_{CFM} = \mathbb{E}\left[\left\| v_\Theta(z, t) - u_t(z|\epsilon) \right\|^2 \right]. LCFM=E[vΘ(z,t)ut(zϵ)2].

形象类比

  • 就像修建了一条笔直的高速公路,车可以以恒定的速度快速到达终点。不需要复杂的减速和转弯,既快又高效。

数学对比
特性 传统 ODE 解法 当前方法
公式 d y t d t = v Θ ( y t , t ) \frac{dy_t}{dt} = v_\Theta(y_t, t) dtdyt=v
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC首席魔法师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值