Stable Diffusion UI 从安装到实现文字图片融合（光影字，错觉图）图片制作详细教程

最新推荐文章于 2025-03-26 15:45:00 发布

原创最新推荐文章于 2025-03-26 15:45:00 发布 · 828 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#stable diffusion #SD安装 #SD安装包 #AI作画

部署运行你感兴趣的模型镜像

前言

最近在实践大模型本地部署，前几天在本地部署了一个ChatGLM大模型，刚好环境搭好了，也支持跑Stable Diffusion，所以就安装了再尝试一下。

原因是之前在B站上有大佬做了一个Windows电脑能一键运行的Stable
Diffusion的安装包，自己也下载下来玩了一下，因为刚接触上手难度比较大，玩了一下放弃了。这两天随着SD
XL 发布，看到能毫秒级地文字生成图片，还有cloudflare 有免费的服务提供，太震撼了，所以想动手做一些实际的东西出来分享一下。

对于没有接触过的同学通俗地来说Stable Diffusion 是一个开源的图像生产+调整工具，接下来我会从怎么安装Stable
Diffusion到做一个文字图片融合的示例。

安装

首先是安装Stable Diffusion （👇扫码直接获取整合包一键安装）
在这里插入图片描述

现在就可以通过内网机器访问这个机器部署的Stable Diffusion的服务了：
此时的webui截图是我安装一些插件的之后截图,接下来需要安装一些插件：

首先安装一个中文插件扩展两种安装方式，第一种就是通过内置插件安装
没安装搜这个zh
安装过后就翻译搜不到了，搜中文：点击安装，这里应该也可以可以直接通过网址安装
注意要在设置里面设置重启UI才能生效

还需要装一个模型浏览工具：C站浏览器插件点击安装就可以
第二种是通过网址安装：

这里我通过这个网址安装了：
1.控制网络(ControlNet插件)（[github.com/Mikubill/sd…](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2FMikubill%2Fsd-
webui-controlnet.git%25EF%25BC%2589 “https://github.com/Mikubill/sd-webui-
controlnet.git%EF%BC%89”)
对图片进行精细化控制，以生成更具创意和控制力的图像文字图片融合的核心插件

2.sd_civitai_extension
（github.com/civitai/sd_…
C 站的官方扩展，可以自动下载模型，获取模型信息，检查模型更新，自动下载缩略图的能力

3.C站浏览器插件
（[github.com/BlafKing/sd…](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2FBlafKing%2Fsd-
civitai-browser-plus.git%25EF%25BC%2589 “https://github.com/BlafKing/sd-
civitai-browser-plus.git%EF%BC%89”)
C站就是著名的AIGC模型库网站，跟著名的Hugging Face一样的网站，但是C站有很多不可描述的东西，被墙了

通过网址安装就用 git 项目地址点击安装就行了

注意：所有的插件安装完成都需要在设置里面点击 ”保存设置“ 和 “重启WebUI”

下载模型

使用C站浏览器插件 下载模型这里推荐一个模型（下了很多模型还没来得及测试）：

majicMIX realistic 麦橘写实

用于生成逼真的人物肖像底层模型

底层模型是模型生成图像所必需的，是模型的核心部分，可以相当于说基础数据集。

直接完成就能自动进入左上角的Stable Diffusion 模型(ckpt) 选项切换就行了

画图

这里我使用的是 majicmixRealistic 这个底层模型生成一个人物

需要提示词prompt提示词，找了一些prompt社区里面的关键词
正面提示：

 jk_lure_dress3,8k,(realistic:1.1), (photorealistic:1.1), (masterpiece:1.1), (best quality:1.1), RAW photo, highres, ultra detailed, High detail RAW color photo,professional photograph,masterpiece, best quality,realistic,realskin,1girl,low_key,solo,lighting,long hair ,full body, standing,classroom, beautiful detailed eyes,natural lighting,, (detailed face:1.2),extremely beautiful face,

负面：

white background, simple background, (ng_deepnegative_v1_75t), (badhandv4), (worst quality:2), (low quality:2), (normal quality:2), lowres, watermark, monochrome

我这里生成的人物素材是全身的，所以宽度我设置的是512，高度是1024，批次数量测试的时候就1个，几秒一个图，调好了话就一次多生成几个图，就选择每批次4-8个。

随机种子-1 就是完全随机，想要生成的图片一致，把相关参数分享出去让别人生成一样的图片，这个随机种子参数就不能设置成-1。

Stable Diffusion有很多采样器类型，稍微查了一下资料，是指一种指用于生成图像的算法，对图像质量，速度，艺术风格有关，我这里使用DPM++
SDE Karras，

需要选中启用，显存小启用现存优化，然后开启预览，看下设置下面点击爆炸icon 预览是否正确

然后最重要的是控制网络这里，需要上传一个图片到控制单元0，注意白底黑字就要选择预处理器第一个反色处理，黑底白字就可以选择最后一个仅重采样，然后点击一下预处理器和模型中间
爆炸的图片查看预览是否图片有正常的字显示

这个图片可以自己在windows 电脑画图中画一个大概流程新建图片，插入文字，调整字体和大小，裁剪，保存，图片中字体位置
代表了融入图片的大概的位置，尽量居中，控制留白位置来控制在融入图片的位置，我这里是基本占满图片的设计

然后设置非常重要的三个参数，控制强度，控制介入开始时间和结束时间。这三个参数代表控制网络对图片影响
控制强度为 1.0 控制网络对生成图像的影响最大，字就最明显，控制强度为 0就不会有任何影响，所以这个参数应该在0.5到0.8之间，
开始时间和结束时间就是在控制强度正常的情况下对于随机图片元素的效果的影响。控制介入时机越晚，控制网络的影响就越晚开始，生成的图像就越随机，控制结束时机越晚，控制网络的影响就越晚结束，生成的图像就越随机，相反就反之。

这里大概三个参数分别差不多就在0.7，0.2，0.7这附近，可以根据自己的测试调整

这里测试了几个字，字的笔画复杂度和粗细和控制网络参数有一定关系，需要自己反复调整：