定制化diffusion微调: DreamBooth原理

funNLPer

已于 2023-09-01 21:25:47 修改

阅读量933

点赞数 1

CC 4.0 BY-SA版权

分类专栏： AI算法文章标签：论文阅读 AIGC stable diffusion

于 2023-07-28 00:32:58 首次发布

本文链接：https://blog.youkuaiyun.com/orangerfun/article/details/131948926

AI算法专栏收录该内容

26 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

DreamBooth是一种微调技术，用于使文生图模型能根据特定对象的参考图片生成保持该对象特征的新图像。通过选择罕见词作为特殊标记符并采用特殊损失函数防止过拟合和语言漂移，模型能在不同场景下保持物体的识别特征。

🤗关注公众号 funNLPer 白嫖畅读全文🤗

论文：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
项目：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
代码：Dreambooth-Stable-Diffusion

1. 任务简介

当前的文生图模型已经可以根据给定的prompt生成高质量的图片。然后这些模型并不能模仿给定参考图片中物体的样子在不同情景中来生成新颖的图片（即参考图片中的物体的样子基本不变，而改变其背景等）。DreamBooth是一种个性化文生图模型：给定某个物体的几张图片作为输入，通过微调预训练的文生图模型（如Imagen），将一个独特的标识符和该物体进行绑定，这样就可以通过含有该标识符的prompt在不同场景下生成包含该物体的新颖图片。如下图所示，输入图片中包含一个闹钟，我们希望在不同场景下生成的图片里闹钟的样子尽可能与输入图片保持一致

在这里插入图片描述

2. 方法

作者希望将输入图片中的物体与一个特殊标识符绑定在一起，即用这个特殊标记符来表示输入图片中的物体。因此作者为微调模型设计了一种prompt格式：a [identifier] [class noun]，即将所有输入图片的promt都设置成这种形式，其中identifier是一个与输入图片中物体相关联的特殊标记符，class noun是对物体的类别描述。这里之所以在prompt中加入类别，是因为作者想利用预训练模型中关于该类别物品的先验知识，并将先验知识与特殊标记符相关信息进行融合，这样就可以在不同场景下生成不同姿势的目标物体

作者提出的方法，大致如下图所示，即仅仅通