stable diffusion实践操作-大模型介绍:SD的发展历史,SD1.5和SDXL之间的差别

大家有没有这样的困惑:在找模型时,老是会出现一些奇怪的标签,像 sd1.5、sdxl 之类的模型后缀,真让人摸不着头脑,一会儿 1.0,一会儿 1.5,一会儿 XL,完全搞不清楚状况。今天就来给大家好好讲讲,这些让人一头雾水的标签究竟是什么意思。

首先,咱们得先了解一些与 SD 相关的基础知识。Stable Diffusion 是一种基于概率论的生成模型,通过特定算法进行训练的人工智能,它能够通过不断迭代与优化,生成高质量的图像和视频。

这一介绍揭示了 SD 的本质,它是一款持续更新的模型软件。在其发展进程中,SD 从 1.0 版本起不断推陈出新,截至目前,推出的版本号已经达到了3.5。当然关于3.5和flux之间的问题是下一次的内容,这次主要讲的是sd1.5和sdxl的历史。

先讲讲 sd 1.0 的发展历程。Stable Diffusion v1.0 于 2022 年 8 月首次公开发布,随后在一段时间内陆续有一些小版本更新,如 1.0 - 1.4 等。这些版本创新点不多,主要是在改进模型的性能与质量方面下功夫。到了 2022 年 10 月,持续时间较长的 sd1.5 版本模型正式推出。用过 sd 模型的朋友都知道,sd 在生成大尺寸图片时,常常会出现多重身的现象。这是因为模型训练时采用的是 512 * 512 的图片,一旦超出这个规格,AI 就会误判为要生成两张图片,所以才会有多重身的问题。

不得不说,1.5 版本发布的时机相当巧妙。在那段时间,由于 sd 的开源特性,与之匹配的插件层出不穷。因此,尽管 1.5 版本也是用 512 * 512 的图片训练出来的,但在丰富的生态插件助力下,制作较大像素的图片也毫无压力,而且还有各种各样的风格模型,所以 1.5 版本的生态在几个版本中是最为出色的。后续发布的 2.0 - 2.1 两个版本,虽然图片的采样数量持续增加,图片规格也提升到了 768 * 768,但始终难以取代 1.5 版本的地位。

直到 2023 年 8 月,sd 的开发公司又推出了 sdxl 版本的模型。

sdxl 与 sd1.5 存在诸多区别:

  1. 模型组合差异:sd1.5 的生成模型仅有一个;而 sdxl 的生成模型有两个,能够灵活组合出图。其基础模型为 base 模型(负责潜空间放大),精修模型是 refiner 模型(负责细化放大)。
  2. 训练参数有别:1.5 模型的训练参数为 9.8 亿,XL 的 base 模型有 35 亿参数,refiner 参数模型更是高达 65 亿。并且 1.5 训练的图片分辨率主要是 512 * 512,XL 的训练图片则是 1024 * 1024。训练参数与图像分辨率的不同,使得 XL 生成的图片分辨率更高,细节也更加丰富。
  3. 提示词写法优化:sd1.5 主要使用短语提示词,而且需要添加诸如考虑更多提示词各部分权重、提升画质等与图片内容无关的提示词。例如,1.5 版本被人诟病最多的一点就是需要添加更多的 Lora 模型才能生成较好的图片。而 sdxl 既可以用短语也能用句子生成图片,无需质量词,对自然语言的理解能力更强。要知道,以往的 sd 都需要使用者学习各种复杂的提示词,还要善于运用各种插件才能生成可用的图片。用自然语言生成精美图片可是另一个 AI 绘画领域巨头 Midjourney 的看家本领,也是其每月收取 50 美金费用的资本所在,如今这道原本坚固的护城河已逐渐被瓦解。
  4. sdxl生成的图片展示:

总体而言,使用 sdxl 模型生成图片的良品率还是比较可观的。当然,这个良品率也存在一定的局限性。在生成真实图片时,我觉得用 sdxl 模型生成的底图,再结合 sd 经过调教的真实系 Lora 模型,效果会更好。而在动漫图片方面,借助 sdxl 的自然语言处理能力能够更轻松地得到理想的构图,再搭配动漫画风的模型,就能收获不错的成果。下次再来为大家介绍 sd 目前最为精彩的 sd3.5 大模型以及黑森林推出的 flux 大模型。

<think>好的,用户想了解Stable Diffusion是否免费开源。首先,我需要确认用户的问题核心,他们可能对Stable Diffusion的开源状态费用有疑问。根据提供的引用资料,引用[1]提到Stable Diffusion是开源免费的,并且可以通过参数调整,比Midjourney更良心。引用[3][2]指出Stable Diffusion 3已经正式开源,并且有免费在线试用链接。引用[4]提到核心团队离职可能影响项目,但社区可能帮助克服挑战,而引用[5]则介绍SD3的技术优势。 接下来要组织回答结构,首先直接回答问题:是的,Stable Diffusion是免费开源的。然后分点详细说明,包括历史版本的开源情况,SD3的最新进展,开源的影响,以及未来的不确定性。需要引用相关引用资料来支持每个观点,比如引用[1]、[3]、[2]证明开源免费,引用[4]讨论潜在风险,引用[5]强调技术优势。同时,要确保回答符合用户层的要求,结构清晰,真实可靠。最后生成相关问题,帮助用户深入理解。</think>是的,Stable Diffusion 是免费且开源的。以下是详细说明: ### 1. **历史版本的开源情况** Stable Diffusion 自 2022 年发布以来,始终以开源形式向公众开放。其代码模型权重均托管在 GitHub 等平台,允许用户自由下载、修改商业化使用[^1]。例如: ```python # 典型调用示例(基于Hugging Face库) from diffusers import StableDiffusionPipeline pipe = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2") ``` ### 2. **Stable Diffusion 3 的最新进展** 2024 年 6 月,Stability AI 正式开源了 **Stable Diffusion 3 Medium** 版本。该版本采用多模态扩散变换器(MMDiT)架构,显著提升了图像生成质量复杂提示理解能[^5]。用户可通过官方平台免费试用: $$ \text{在线试用地址:} \href{https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium}{Stable Diffusion 3 Medium} $$ ### 3. **开源带来的优势** - **技术透明性**:开发者可深入理解模型架构并自定义训练流程 - **成本优势**:相比 Midjourney 等付费工具,本地部署无需订阅费用[^1] - **生态扩展**:开源社区已衍生出 ControlNet、LoRA 等增强插件 ### 4. **潜在不确定性** 虽然当前版本保持开源,但核心团队离职事件可能影响后续更新节奏[^4]。不过开源协议确保了现有代码的持续可用性,社区维护的衍生项目(如 SDXL Turbo)仍会推进发展
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值