一、介绍
因为comfyUI是基于workflow工作流的,就是将要完成的任务进行分解,然后一个个节点配置起来,如果你不懂的工作原理,别人分享的工作流你也只仅仅只能使用,想自己微调的话难度就大了。
二、原理拆解
这次先从最简单的文生图来拆解分析。
当你输入一个文字,比如 1girl,我们称之为 text prompt,系统会返回给你一张符合你输入文本的描述图片。
在整个过程中,在底层实现这个工作有三个关键点。
-
1、大模型
-
2、CLIP和VAE
-
3、采样器
下面分别来介绍。
2.1 大模型
第一个关键是大模型,模型是拿非常多的图片样本进行计算,这些图片上有大量的文本标记Tag,比如说蒙娜丽莎的图,就会打上达芬奇、写实派、女性、微笑、油画等一系列的属性,我们称之为Tag。
计算的过程中 ComfyUI做了以下三个事情