AIGC笔记--Stable Diffusion源码剖析之FrozenCLIPEmbedder

最新推荐文章于 2024-10-04 23:19:21 发布

纳兰小熊

最新推荐文章于 2024-10-04 23:19:21 发布

阅读量541

点赞数 3

分类专栏： AIGC学习笔记文章标签： AIGC

本文链接：https://blog.youkuaiyun.com/weixin_43863869/article/details/139509060

版权

AIGC学习笔记专栏收录该内容

23 篇文章

订阅专栏

1--前言

以论文《High-Resolution Image Synthesis with Latent Diffusion Models》开源的项目为例，剖析Stable Diffusion经典组成部分，巩固学习加深印象。

2--FrozenCLIPEmbedder

在默认提供的 txt2img.py 中，使用固定权重的 CLIP 模型来将文本条件编码成Embedding，源代码如下：

class FrozenCLIPEmbedder(AbstractEncoder):
    """Uses the CLIP transformer encoder for text (from Hugging Face)"""
    def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77):
        super().__init__()
        self.tokenizer = CLIPTokenizer.from_pretrained(version)
        self.transformer = CLIPTextModel.from_pretrained(version)
        self.device = device
        self.max_length = max_length
        self.freeze()

    def freeze(self):
        self.transformer = self.transformer.eval()
        for param in self.parameters():
            param.requires_grad = False

    def forward(self, text):
        batch_encoding = self.tokenizer(text, truncation=True, max_length=self.max_length, return_length=True,
                                        return_overflowing_tokens=False, padding="max_length", return_tensors="pt")
        tokens = batch_encoding["input_ids"].to(self.device)
        outputs = self.transformer(input_ids=tokens)

        z = outputs.last_hidden_state
        return z

    def encode(self, text):
        return self(text)