FLUX.1 Kontext 论文
1024×1024分辨率图像的文本/图像生成仅需3-5秒。

在 FLUX.1 中,图像的 Input latents 采用 3D RoPE 编码和文本采用双流网络处理,拼接后采用交叉注意力融合。然后丢弃文本 token,仅保留图像 token,采用 38 层单流 Transformer 建模。为优化单流网络下的 GPU 利用率,采用了:将前馈块的参数减少 50%;将注意力机制的输入/输出线性层与 MLP 层融合,形成更大的矩阵-向量乘法(显著提升训练和推理速率)。

训练目标,能够同时基于文本提示和参考图像生成目标图像: p ( x ∣ y , c ) p(x|y,c) p(x∣y,c)
与传统的文生图不同,这一目标要求模型学习图像与图像之间的关联,通过文本指令 c 来调节。模型能在 y ≠ ∅ y ≠ ∅ y=

最低0.47元/天 解锁文章
416

被折叠的 条评论
为什么被折叠?



