FLUX Kontext论文记录

FLUX Kontext

技术方案

采用flow matching结合图像生成和编辑,采用简单的序列cat方法,在一个联合框架内同时处理局部编辑和生成上下文任务,改善物体和角色保持,迭代编辑更鲁棒,更快,Kontext测试集1026图文对包含:局部编辑、全局编辑、角色参考、风格参考和文本编辑5类,单轮和多轮编辑都最优

Local editing. 局部编辑用inpainting方法,保持编辑区域外不变向区域内补全语义,传统inpainting方法:LaMa、SD inpainting和RePaint以及Palette、Paint-by-Example、ControlNet和DragGAN

Generative editing. 提取一个视觉概念,然后在新的环境中忠实再现,可能以新的视角或渲染方式合成。类似于大型语言模型中的上下文学习,网络通过提示中提供的上下文条件(视觉或prompt)调整其输出而无需无需微调或 LoRA 训练。该类工作包括 IP-Adapter 或检索增强的扩散变体等。

本文结合了传统局部编辑和生成式、上下文图像生成,创新点:

  • 采用整流Transformer,vae16通道,FLUX.1单双流混合模型,双流对文本和图像用不同权重,cat后经过att融合,之后丢掉text走单流模块x38次
  • 为提高GPU利用率,减少2倍FFN的调制参数,融合att输入和输出linear层,生成更大的矩阵-向量乘法,3DRoPE时空PE(t,h,w),t代表不同的条件图id
  • 有条件图和无条件图同时训练,需要数百w对图像pair,支持多条件图输入,训练只输入单个条件图
  • 条件图经过FLUX VAE模型得到latent token,然后拼接在噪声图token后输入视觉模块,序列拼接:(a)支持任意分辨率和宽高比;(b)容易扩展到多条件图输入;
  • y中所有上下文标记接收一个常数偏移。该偏移视为一个虚拟时间步,分隔了上下文和目标块,同时保持内部空间结构完整。如目标标记我们设置 ux = (0, h, w)
  • 采用对抗扩散蒸馏策略解决过饱和和视觉伪影,并减少采样步数同时提升生成质量
  • pro模型用flow损失训练,然后对抗扩散蒸馏;dev模型通过引导蒸馏到12b模型,然后On distillation of guided diffusion models. 为了优化dev,不进行文生图训练;最后是NSFW安全模型训练

请添加图片描述
请添加图片描述
请添加图片描述

结论

试用结果:指令理解和遵循都很不错,速度也非常快,批量跑图会发现有些指令无法理解和生成。需要对比更多细节,如PE与BAGEL的区别。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值