Flux.1系列模型解析--Flux.1 Tools

最新推荐文章于 2025-12-09 23:24:34 发布

原创

最新推荐文章于 2025-12-09 23:24:34 发布 · 943 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #算法 #机器学习

文章目录

简介
Fill
Redux
Depth/Canny

简介

Flux.1模型的基础能力已经很强，但是局部生成、控制生成等方面仍不足，bfl随进一步训练，开发了Flux.1 Tools系列模型，包含四个模型，具体情况如下。

Fill：根据文本描述和二进制掩码编辑或扩展输入图像，即Inpainting和Outpainting，是一个基模型
Redux：一个能对输入图片进行细微变化或调整的Adapter模型，可以和所有Flux.1基模型组合使用
Depth：可接受条件图像的深度信息控制生成图片，有基模型或lora模型
Canny：可接受条件图像的canny线条信息控制生成图片，有基模型或lora模型

Fill

与常规的painting模型相同，Flux.1 Fill dev模型基于Flux.1 dev全量微调而来，并且因为掩码图片mask的引入，flux backbone的in_channels参数与Flux.1 dev初始化时不同。Flux.1 Fill dev模型采样时的图片特征具体构建步骤是，先将条件图片和掩码图片(可认为通道数为1)的像素值归一化，然后将条件图片和掩码图片耦合得到条件图片，即确定选区，然后使用VAE的编码器从条件图片中提取条件特征向量，假设像素空间中图片的尺寸为 $[H, W, 3]$ ，那么条件特征相邻的尺寸为 $[\frac{H}{8},\frac{W}{8},16]$ ；再对条件特征向量进行分块、离散为序列，即将其划分为 $2 * 2$ 的patch并拉长为序列，尺寸变为 $[\frac{H}{16},\frac{W}{16},64]$ 。此外，掩码图片mask也应该包含在输入中，对于mask并没有进行编码进行特征提取，故为了保证其能与离散后的特征向量在最后一个维度拼接，直接将其尺寸转换为 $[\frac{H}{16},\frac{W}{16},256]$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。