Paper reading: boosting text-to-image diffusion models with fine-grained semantic rewards

由于缺乏成功诊断模态差异的精细语义指导,以前的方法无法在文本概念和生成的图像之间执行准确的模态对齐。因此,提出FineRewards,在文本到图像diffusion模型中提高文本和图像间的对齐,这里引入两个Fine-grained semantic rewards: the caption reward and the semantic segmentation anything reward.

1. Caption reward: 从全局语义的角度来看,Caption reward是通过 BLIP-2 模型生成相应的详细字幕,描述合成图像中的所有重要内容,然后通过测量生成的字幕与给定提示之间的相似度来计算奖励分数。

 

2. SAM reward: 从局部语义的角度来看,SAM 奖励将生成的图像分割成带有类别标签的局部部分,并通过大型语言模型(即 Vicuna-7B)测量每个类别出现在提示场景中的可能性来对分割的部分进行评分。

框架图

The text-to-image model is finetuned through Low-rank Adaptation,这里的diffusion model用了连个作为base models: Stable diffusion v1.5 和Stable diffusion v2.1.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值