diffusion model (十) anydoor技术小结_anydoor论文-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40779727/article/details/135282157

paper	AnyDoor: Zero-shot Object-level Image Customization
code	https://github.com/damo-vilab/AnyDoor
Org	香港大学，Alibaba Group
date	2023-07

1 Motivation

过去我们用dreambooth，LORA，textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是：给定目标图片和场景图片就能生成在该目标在该场景不同姿态（角度、光照）的图片。

2 Method

2.1 模型架构

架构组成	功能	是否更新参数
Segmentor	用于去背景	❄️
Detail Extractor	类似ControlNet，用于特征注入	🔥
Unet	stable diffusion	❄️
ID Extractor	提取图片特征，注入unet	❄️DINOV2 + 🔥投影层

在这里插入图片描述

pipeline如下：

输入：

给定场景图片+生成位置
需要定制的目标图片

STEP1：目标图片送入到segmentor中进行去背景。然后兵分两路，记作分枝1和分枝2

STEP2-分枝1：
- STEP2-1-1: 提取去除背景的图片的高频信号HF_MAP (下节有实现细节)
- STEP2-1-2: 将提取的高频信号和场景图片在生成位置进行融合
- STEP2-1-3: 将融合的结果送入到Detail Extractor 中提取Detail map。（此处的网络结构类似controlnet）
STEP2-分枝2:
- STEP2-2-1: 将去除背景的图片送入到ID Extractor中提取ID-Token。

STEP3: 将ID-Token和Detail map一起送入到Unet中，用diffusion model的生成方式进行图片生成。

2.2 实现细节

2.2.1 图中的HF-MAP是什么，有什么用

HF-MAP的计算公式如下

$\mathbf {I} _ { h } = ( \mathbf {I} \otimes \mathbf {K} _ { h } + \mathbf {I} \otimes \mathbf {K} _ { v } ) \odot \mathbf {I} \odot \mathbf{M} _ { e r o d e } ,$