图生图流程解析

一、介绍

本篇来介绍下图生图的流程,图生图只是在文生图基础上做了一点点的改动,再结合原理查看,你会发现和文生图类似。

二、流程步骤

回顾一下上一篇的文生图的完整流程

采样器通过模型形成一个Latent space

我们输入的参数有text prompt,通过clip编码器,是由模型提供的,变成token输入给采样器

然后用一个空的Latent图片,直接给采样器,作为基础的采样

采样器经过多次的工作,也就是对应步数那个属性,这里设置的是20步,也就是执行了20次

然后生成了Latent的结果,Latent结果经过解码,就变成了我们需要的图片了

图生图的话很简单,只要把空Latent变成我们具体要参考的图片即可,把图片当作第一次的采样参考。

这里我们修改下文生图的流程

在空白地方按下面顺序生成一下加载图像这个节点

具体图片的话,看原理流程图里面是需要先经过VAE编码后才可以接入到采样器的,所以这里把加载器的图像节点拉出来,连接一个VAE编码节点,这时候才可以去连接采样器的输入端的Latent,其实大家后面连接节点的时候可以注意节点的颜色,相同颜色的节点才可以连接。最后也要记得把VAE节点和大模型的去链接上才行。不管是CLIP编码器还是VAE编码器都是大模型提供的,所以都需要连接上。

这时候的采样器里面的降噪就是重绘幅度了,范围0-1,越大越不像原图,越小越像。这里我们用0.5测试一下

最终的流程就是这样,不同颜色也对应的不同的对应关系,记得保存哦~

再来对照一下工作原理,到此,相信大家基础入门算是打牢固了。

三、修改尺寸

上面的只是一个最基本的工作流,你会发现图片尺寸好像无法修改,只能使用图片默认的。

这时候想要修改图片尺寸,需要修改到工作流

加载图像这里拖出来,选择按如下这样,找到图像放大,通常用的就是图像缩放和图像按系统缩放。

如下图这样,按图像缩放的可以设置具体的宽高,也是最常用的,第二种就是直接设置缩放倍数。

后面常见的缩放进阶篇会具体介绍,目前大家主要知道这里可以调整尺寸大小即可。

### 成模型与像到像翻译模型的核心概念 成模型和像到像翻译模型是计算机视觉领域的重要分支,广泛应用于多种场景。以下是两种模型的关键技术和实现方法。 #### 条件对抗网络的应用 条件对抗网络(Conditional GANs)是一种强大的工具,在像到像的翻译任务中表现优异。它不仅可以学习从输入像到输出像的映射关系,还能自动定义适合此任务的损失函数[^4]。这意味着无需手动设计复杂的映射或损失函数即可完成高质量的任务处理。 #### TransGaGa 的特性 TransGaGa 是一种基于几何感知的无监督像到像翻译框架。其核心优势在于能够通过纯几何表示转换模式实现外观无关的像间转化,并具备多模态成的能力。具体而言,当几何结构被成功转换后,可利用目标域中的样本来引导多样化的成过程。例如,在人脸像翻译过程中,无论是正面脸还是侧面脸,都能保持几何特征的一致性;同时也能很好地迁移源像上的细节纹理至目标像上,比如胡须的颜色或者动物的眼睛颜色等[^2]。 #### Pix2Pix Turbo 实现高效配对翻译 Pix2Pix-Turbo 提供了一种快速高效的成对数据集间的像翻译方案。这一技术允许同一个成器用于不同类型的GAN目标下操作,从而提高了灵活性和效率。在实际应用案例里展示了如何将边缘转化为真实片的效果[^1]。 #### 训练技巧详解 为了使成器更好地配合判别器工作,在训练阶段会采取冻结部分参数的方式来进行联合优化。如下代码片段展示了一个典型的组合模型构建流程: ```python from tensorflow.keras.layers import Input from tensorflow.keras.models import Model # 定义输入层 img_A = Input(shape=(256, 256, 3)) img_B = Input(shape=(256, 256, 3)) # 使用成器创建假A fake_A = generator(img_B) # 设置判别器不可训练 discriminator.trainable = False # 判定伪造像的有效性 valid = discriminator([fake_A, img_B]) # 构建并编译组合模型 combined = Model(inputs=[img_A, img_B], outputs=[valid, fake_A]) combined.compile(loss=['mse', 'mae'], loss_weights=[1, 100], optimizer=optimizer) ``` 上述代码实现了成器与判别器之间的协同作用,其中`loss_weights` 参数强调了重建误差的重要性,有助于提高最终成质量[^3]。 ### 总结 综上所述,当前主流的成及翻译模型主要依赖于条件对抗网络架构及其变体形式。它们各自针对特定应用场景进行了改进优化,共同推动了该领域的快速发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值