人工智能史上最重要的一周还没有结束。就在 OpenAI 发布可以生成令人瞠目的视频的 Sora,以及谷歌发布支持多达 150 万个tokens上下文窗口的 Gemini 1.5 之后几天,Stability AI 今天展示了 Stable Diffusion 3 的早期预览版。
Stable Diffusion 3 是什么?
Stable Diffusion 3是Stability AI最新且最强大的文本生成图像(文生图)模型。它在处理多主题提示词、图像质量以及文本渲染能力方面都有显著提升。当前这套模型的参数范围从8亿到80亿不等,它结合了扩散变换架构(与Sora相似)和流匹配技术。
DIT架构
扩散变换架构(DiT)代表了一种新型的扩散模型类别,这些模型融合了transformer技术。与通常使用卷积U-Net主干的传统扩散模型不同,DiT采用transformer来操作图像的潜在片段。
这种架构在如ImageNet这样的大型数据集上的类条件图像生成任务中表现尤为出色,DiT在图像质量和生成模型性能上树立了新的标准。
Flow Matching
流匹配(FM)是一种新的、无需模拟的方法,用于训练连续归一化流(CNFs),使得可以在前所未有的规模上训练CNFs。FM的工作原理是通过回归与一系列高斯概率路径(包括扩散路径)兼容的固定条件概率路径的向量场。
从相同的初始噪声出发,使用在ImageNet上训练的模型生成的样本路径。这不仅使得扩散模型的训练更加健壮,还为使用非扩散概率路径(如最优传输(OT)路径)的连续归一化流(CNFs)提供了更快的训练、采样和更好的泛化途径。
Stable Diffusion 3的新特性有哪些?
以下是SD3带来的关键改进:
-
支持文本渲染
-
性能提升
-
多主题提示
-
更好的图像质量
可能这个新图像模型最令人兴奋的特性是其渲染文本的能力,类似于openAI的Dall-E 3和Google Gemini中Imagen 2的功能。Stability AI的CEO Emad Mostaque一直在分享用SD 3生成的图片,这里是他的一些最喜爱的图片:
提示词:“一张红色球体放在蓝色立方体上的照片。它们后面是一个绿色的三角形,右边是一只狗,左边是一只猫”
我发现这张图片中有一个有趣的细节,就是动物的白色皮毛上有微妙的绿色色调。我想知道这个模型是否从绿幕拍摄现场的幕后照片中学到了这种效果。
提示词:“一个教室里的桌子上有一个红苹果,黑板上用粉笔写着‘要不全力以赴,要不回家’的电影风格照片”
===
Stable Diffusion 3与Dall-E 3和Gemini的对比
我快速比较了SD3和OpenAI的Dall-E 3生成的图像。在下面的例子中,我使用了SD3发布博客文章中的提示词。
提示词:“一位巫师在夜晚的山顶上施展宇宙魔法,向黑暗的天空投射出由彩色能量构成的‘Stable Diffusion 3’的史诗级动漫艺术作品”
Stable Diffusion 3刚刚超越了Dall-E 3吗?老实说,我对Dall-E 3反复拒绝用这个提示词渲染文本感到惊讶。你可以自己试试看。
出于好奇,我还将这个提示词输入到了Gemini Advance中,这是结果:
===
如何获得SD 3的访问权限?
目前,Stable Diffusion 3.0还未对公众开放。不过,你可以在这里(https://stability.ai/stablediffusion3)注册以获得Discord服务器的邀请。
===
最后的想法
总的来说,我非常期待看到更多Stable Diffusion 3的示例。我已经注册了以获取预览模型的早期访问权限。
不过,我所关心的一点是,公告帖子的一半都在讨论AI安全问题。这种对安全性的过分强调在我看来像是一个错失的营销机会,特别是考虑到最近的Gemini事件。
Stable Diffusion的主要用途不就是你可以在自己的计算机上安装它,并创造你想要的内容吗?
无论如何,如果需要,开源模型可以由社区进行微调。为了澄清,SD3图像模型仍将是开源的。预览版旨在提高其质量和安全性,就像其他Stable Diffussion版本一样。
想要SD安装包和相关插件的小伙伴扫码可免费领取哦~
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
若有侵权,请联系删除