(二) AIGC—Stable Difussion (1)

部署运行你感兴趣的模型镜像

1. 前置知识

目前通用的图像生成模型一般包含三个组件:

  • Text Encoder 根据文字生成向量
  • 生成模型 根据向量和Noise 生成 缩小版本的图像
  • Image Decoder 根据小分辨率图像生成大分辨率图像

2. Text Encoder

在这里插入图片描述
文字的Encoder对于结果的影响很大,增大Diffusion Model对结果的影响比较有限。

在这里插入图片描述

FID : 衡量一个图像好坏的一个标准,需要sample很多的Image进行标准衡量
CLIP-Score : 也是一个衡量标准,如下图,两个encoder生成出来的向量距离远近

在这里插入图片描述

3. Decoder

额外的Decoder不需要piar的资料,只需要图像就可以把Decoder训练出来

在这里插入图片描述
在这里插入图片描述
Imagen用到就是把小图当作中间产物,Stable Diffusion和DALL-E把latent representation当作中间产物

4. Generative Model

在这里插入图片描述

在这里插入图片描述
Midjourney 生图的时候,从模糊到清楚,其原理就是把每次Denoise的中间产物经过Decoder再次加工,所以可以看到比较清楚,而不是噪声

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

### 调用Stable Diffusion API 或 解决调用过程中的问题 #### 使用Gradio库构建浏览器界面 为了通过API调用Stable Diffusion模型,可以利用基于Python的开源工具Gradio来创建简单的Web接口。这种方法允许用户无需深入了解复杂的编程细节即可操作AI模型[^1]。 以下是实现这一功能的一个基本代码框架: ```python import gradio as gr from diffusers import StableDiffusionPipeline import torch model_id = "runwayml/stable-diffusion-v1-5" pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda") def generate_image(prompt, num_inference_steps=50, guidance_scale=7.5): image = pipe(prompt, num_inference_steps=num_inference_steps, guidance_scale=guidance_scale)["sample"][0] return image interface = gr.Interface( fn=generate_image, inputs=["text", gr.Slider(10, 100), gr.Slider(1, 15)], outputs="image", ) interface.launch() ``` 上述脚本展示了如何加载预训练的Stable Diffusion管道并定义一个函数`generate_image()`用于图像生成。随后使用Gradio的`Interface`类将该逻辑封装到易于使用的图形界面上。 #### 处理异步集成挑战 尽管Gradio提供了便捷的方式访问深度学习模型,但在某些情况下可能需要与其他服务协同工作,比如Java环境下的应用服务器。然而,由于缺乏丰富的类库支持同步交互模式,这可能会成为一大障碍[^2]。针对这种情况,推荐考虑以下几种策略之一: - **采用消息队列机制**:借助Kafka或者RabbitMQ这样的中间件产品,在不同技术栈之间传递请求数据包。 - **RESTful微服务架构设计**:把运行着Python后端程序的部分部署成独立的服务节点,对外暴露标准化HTTP endpoints供其他组件消费。 如果目标平台已经具备较为成熟的网络通信能力,则可以直接尝试引入最新的改进成果,例如Apache Axis2所提供的异步Web Services特性或是Tomcat 6新增加的支持Comet风格Servlet的功能点。 #### 常见错误排查指南 当实际执行过程中碰到困难时,请按照下面几个方面逐一核查原因所在: 1. 确认所有依赖项均已正确安装完毕; 2. 检查GPU资源是否充足以及驱动版本兼容情况; 3. 审视输入参数设置合理性,特别是对于连续型变量要给予适当范围约束; 4. 查阅官方文档获取最新更新信息或社区反馈意见。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ray.so

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值