Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models

尔呦

于 2024-07-04 10:16:59 发布

阅读量901

点赞数 5

分类专栏： video generation 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44994838/article/details/140170270

版权

video generation 专栏收录该内容

23 篇文章

订阅专栏

HKU&Microsoft NeurIPS 2023
https://github.com/ShihaoZhaoZSH/Uni-ControlNet
https://arxiv.org/pdf/2305.16322

问题引入

为文生图模型增加文本以外的生成控制条件，包含两类local controls (e.g., edge maps, depth map, segmentation masks) and global controls (e.g., CLIP image embeddings)，并且无论是什么条件组合都只需要额外训练两个adapter；
区别于之前方法的需要全参数微调或者为每一种条件都需要专门训练对应的adapter；

methods

使用 $F, M, G$ 分别表示unet的encoder，middle，decoder三部分， $f_i,m,g_i$ 分别表示对应block的输出，因为skip connection，decoder对应的block的输入由 $\begin{cases}concat(m,f_j) & i = 1,i+j=13\\concat(g_{i - 1}, f_j) &2\leq i\leq12,i+j=13\end{cases}$ ， $y$ 表示text embedding;
local adapter：复制了一份encoder和middle block $F^{'}, M^{'}$ ，之后再decoder部分进行信息integrate， $\begin{cases}concat(m + m',f_j + zero(f'_j)) & i = 1,i+j=13\\concat(g_{i - 1}, f_j + zero(f_j')) &2\leq i\leq12,i+j=13\end{cases}$ ，与controlnet不同的是controlnet将condition和noisy latent进行concat作为复制的encoder的输入，本文采取了另外的condition injection策略，首先将不同的local condition进行concat，然后使用feature extractor $H$ 来提取不同scale的特征，选择复制的encoder的每个scale的第一个block作为condition injection的位置，injection通过FDN(feature denormalization)完成， $FDN_r(Z_r,c_l) = norm(Z_r)\cdot(1 + conv_\gamma(zero(h_r(c_l)))) + conv_\beta(zero(h_r(c_l)))$ ，其中 $c_l$ 是concat的condition， $h_r$ 是对应scale的feature extractor $H$ 的输出， $conv_\gamma,conv_\beta$ 分别是convert condition features into spatial-sensitive scale and shift modulation
coefficients；
global adapter：例如通过CLIP image encoder得到的image embedding $c_g$ ，首先经过condition encoder $h_g$ ，包含若干FFN，之后进行reshape到 $K$ 长度，再和 $K_0$ 个text token进行concat操作， $K$ 个token在拼接的时候乘上了一个系数 $\lambda$ ；
训练策略：分开训练两个类型的adapter，训练时随机丢弃一些条件，丢弃条件对应的channel置为0；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。