目录
二、文生图/图生图(text-to-image/image-to-image)
一、引言
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
今天介绍CV计算机视觉的第四篇,文生图/图生图(text-to-image/image-to-image)。transformers的pipeline只有图生图(image-to-image),没有(text-to-image),在实际应用中,文生图更加主流,通常先进行文生图,再进行图生图。所以本篇文章重点介绍文生图,附带进行图生图的讲解。本篇也未使用transformers的pipeline,而是使用DiffusionPipeline,目前主流的文生图、图生图方法。本文更加注重如何使用代码进行文生图、图生图,如果你的工作不需要部署api服务,推荐您使用AUTOMATIC1111的stable-diffusion-webui。
如果您是windows,建议搜索“秋叶大佬整合包”,一键部署属于你的文生图工作台。
当然,如果您的土豪,推荐您使用midjourney,封装的更加简单易用。
二、文生图/图生图(text-to-image/image-to-image)
2.1 文生图
输入提示词,模型理解提示词,生成图片。
2.2 图生图
图像处理与增强,通过给定的提示词,对源图像进行加工与处理,使其满足清晰度、定制等需求。
2.3 技术原理
我们以Stable Diffusion为例,讲讲文生图/图生图的原理。
2.3.1 Diffusion扩散模型原理
将到扩散模型,一定要了解DDPM: Denoising Diffusion Probabilistic Models(基于概率的降噪扩散模型),主要包含两个过程:
- Diffusion Process (又被称为Forward Process) 扩散过程:对图片进行加噪,每一步都往图片上加入一个高斯分布的噪声,直到图片变为一个基本是纯高斯分布的噪声
- Denoise Process(又被称为Reverse Process)降噪过程:基于UNet对含有噪音的图片进行逐步还原,直到还原至清晰可见的图片。
2.3.2 Stable Diffusion扩散模型原理
主要由AutoEncoder、扩散模型和Condition条件模块三部分组成。具体方法是
- 首先需要训练好一个自编码模型(AutoEncoder&#