Stable Diffusion 3开源秒翻车,画人好掉san

部署运行你感兴趣的模型镜像
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

没想到……Stable Diffusion 3开源即出现翻车案例。

生成一个躺在草地上的女孩,结果长这样?

ac9072329cf54634a18e0cd7aba98488.png

而且不是个例,只要是和人(整体)相关的内容,生成结果都有点掉san。

8fdeb079288a32b8c5cfc19f2c84f920.png前方高能a4e5ff0378fa8d3cf4efebe3f7f8a2b9.png

7aa3fbd2fcfed8108d439b8aea2057a1.jpeg

但如果是局部,比如只生成人脸,确实很nice。

cab56bbc51106077ba73b1e409abaa65.jpeg

清晰度、写字、写实性等方面都有明显提升。

eee54ed3ad5875e91a9898fc6ffd6534.jpeg

对于复杂长提示词的理解也很到位,有网友发现提示越长它画的越好。

191b09f849841b664c44b6525009e554.png
776cb879eb947135b741250478f13847.jpeg

那么问题来了,为啥偏偏画不好人类?

问题可能在于数据集

先来看看SD3开源的具体情况。

本次开源的版本是Stable Diffusion 3 Medium(中杯)。

它的规模为20亿参数,在笔记本上就能跑了。

官方强调的属性有5方面,逐一来看:

  • 整体质量和写实

可生成出色的细节,包括色彩、光线、强写实等,带来灵活风格的高质量输出。

通过16通道VAE,成功解决了其他模型的常见缺陷,比如手部和面部的写实问题。

  • 提示词理解

可以理解复杂长提示,包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用,方便用户平衡性能和显存。

  • 有效利用资源

对VRAM占用很低,非常适合在消费级GPU上运行,且性能不降低。

  • 微调

能够利用小数据集微调,方便定制化。

目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用,商业用途需要先拿授权。

4a7686fdf38265e91552cef5a015cc45.png

那么为啥升级后还是会翻车?

有人发现,如果细看“躺在草坪上的女孩”这张图像,会发现它在局部细节上确实还可以,甚至很棒。

8cdf410324f50774a740396e651dadca.png

草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。

252d54026fa47939a071b1818a176275.png

但人物整体就不敢恭维了。

不少网友都认为,这就是问题的关键。

我认为他们的NSFW过滤器,把所有人类图像都判定为了NSFW。

d940cac81e773ae765356f75bfdaaa0d.png

这个过滤器全称是filtering out adult content,作用在于过滤掉不合规的成人内容。

SD2发布时就出现过类似的问题,研究人员发现审查这部分内容可能影响了模型对人体结构的理解。

后面的SD2.1和SDXL版本有所缓解。

这次SD3的翻车,暴露了一个问题:过于严格的数据审核,可能误删了一些无害的成人图像,所以现在模型没法理解人体结构。

有网友就阴阳说,没多久之前SD还能和Midjourney竞争,现在一比,就像个笑话。

至少我们的数据集是安全和合乎道德的。

c8e936c50df6cecb9b301a8c4bac4c45.png

Reddit上“SD3-2B发布是个笑话吗”的帖子,热度已经冲到了800+。

26cfb4df735e2ef65156a954d3bb9f7c.png

当然,除了技术以外的原因,还不少人觉得SD3的性能不佳更进一步暴露了Stability AI的内部混乱。

我猜他们现在可以安全合规地破产了。

15287bd1fa499e201d386347a07cf5ed.png

欠债1亿、疑似求卖身

Stability AI的动荡,从SD3开源的一再延期就能窥见端倪。

2月发布模型后,一开始,官方说的是搞完RLHF就开源,结果大家伙等了3个多月,官方放出的还是只有API。直到现在,才开源了一个中杯版本。

8a49c7ba85515c3d322b794473b74d9c.png

与此同时,公司CEO Emad辞职+退出董事会。核心团队也被曝集体离职。

今年5月,据The Information消息,这家初创公司已经面临严重现金短缺:第一季度收入不到500万美元,而亏损超过了3000万美元。同时欠了云厂商和其他企业近1亿美元,“求卖身”的消息不断传出。

值得一提的是,消息称SD3还将开源更多版本,包括4B和8B。

不知道更大版本效果会如何呢?

官网传送门:https://stability.ai/news/stable-diffusion-3-medium

参考链接:
[1]https://www.reddit.com/r/StableDiffusion/comments/1de85nc/why_is_sd3_so_bad_at_generating_girls_lying_on/
[2]https://x.com/benjedwards/status/1800974616611184884
[3]https://www.reddit.com/r/StableDiffusion/comments/1de7lbg/comment/l8a1me0/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

f0e5798528c471683d554f5450165adf.png

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值