【人工智能】Transformers之Pipeline（八）：文生图/图生图（text-to-image/image-to-image）

原创

已于 2024-08-07 00:02:23 修改

· 置顶 · 4.4k 阅读

164

143 ·

版权

文章标签：

#stable diffusion #人工智能 #机器学习 #python #计算机视觉 #大数据 #文生图

于 2024-08-06 23:50:22 首次发布

一、引言

二、文生图/图生图（text-to-image/image-to-image）

2.1 文生图

2.2 图生图

2.3 技术原理

2.3.1 Diffusion扩散模型原理

2.3.2 Stable Diffusion扩散模型原理

一、引言

pipeline（管道）是huggingface transformers库中一种极简方式使用大模型推理的抽象，将所有大模型分为音频（Audio）、计算机视觉（Computer vision）、自然语言处理（NLP）、多模态（Multimodal）等4大类，28小类任务（tasks）。共计覆盖32万个模型

今天介绍CV计算机视觉的第四篇，文生图/图生图（text-to-image/image-to-image）。transformers的pipeline只有图生图（image-to-image），没有（text-to-image），在实际应用中，文生图更加主流，通常先进行文生图，再进行图生图。所以本篇文章重点介绍文生图，附带进行图生图的讲解。本篇也未使用transformers的pipeline，而是使用DiffusionPipeline，目前主流的文生图、图生图方法。本文更加注重如何使用代码进行文生图、图生图，如果你的工作不需要部署api服务，推荐您使用AUTOMATIC1111的stable-diffusion-webui。

如果您是windows，建议搜索“秋叶大佬整合包”，一键部署属于你的文生图工作台。

当然，如果您的土豪，推荐您使用midjourney，封装的更加简单易用。

二、文生图/图生图（text-to-image/image-to-image）

2.1 文生图

输入提示词，模型理解提示词，生成图片。

2.2 图生图

图像处理与增强，通过给定的提示词，对源图像进行加工与处理，使其满足清晰度、定制等需求。

2.3 技术原理

我们以Stable Diffusion为例，讲讲文生图/图生图的原理。

2.3.1 Diffusion扩散模型原理

将到扩散模型，一定要了解DDPM: Denoising Diffusion Probabilistic Models（基于概率的降噪扩散模型），主要包含两个过程：

Diffusion Process (又被称为Forward Process) 扩散过程：对图片进行加噪，每一步都往图片上加入一个高斯分布的噪声，直到图片变为一个基本是纯高斯分布的噪声

Denoise Process（又被称为Reverse Process）降噪过程：基于UNet对含有噪音的图片进行逐步还原，直到还原至清晰可见的图片。