[Classifier-Guided-Expand] More Control for Free! Image Synthesis with Semantic Diffusion Guidance

1、目的

        过去的text-to-image生成方法需要image-caption对进行训练,无法用在没有text annotation的数据集上

        本文用一个统一的框架,可以选择用reference image / language / language + image指导图像生成模型

2、方法 

                    

        Semantic Diffusion Guidance (SDG)

        1) 无需重新训练无条件DDPM,只需要训练CLIP finetune

                -> 将BN层替换为adaptive BN层,以时间t作为condition

                -> 自监督(contrastive objective,E_{I}(x_{0})\widetilde{E_{I}}(x_{t}),其中E_{I}参数固定,\widetilde{E_{I}}在噪声图像上finetune),无须text annotations

        2) guidance

                ​​​​​​​    

        ​​​​​​​        

                E_{I}^{'}是用额外的timestep input上的噪声图像训练的image encoder

                -> language guidance

                        E_{L}是text encoder

                        

                        用finetune过的CLIP预测image-text matching score

                -> image guidance

                        content:

                                

                                如果需要生成的图片和参考图片有相似的结构,可以用

                                

                        style

                                

                -> multimodal guidance

                        ​​​​​​​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值